2006. 2, 『古文書硏究』29


고문헌 자료 XML 전자문서 편찬 기술에 관한 연구*1)


김 현**1)


 

目   次

 

 

 

Ⅰ. 머리말

Ⅱ. 고문헌 정보화와 XML

  1. 전자문서 편찬의 필요성

  2. 고문헌 정보화 분야의 XML 활용 현황

Ⅲ. 기본 저장 단위의 구조화

   1. 문서 중심적 XML의 특징

   2. 고문헌 자료의 구조적 특성

   3. 계층 구조 자료의 정보화를 위한 XML 모델

Ⅳ. 기본 저장 단위 내부 요소의 정보화

   1. 혼합 요소 처리의 문제점

   2. 문중 요소 처리의 필요성

   3. 문중 요소의 유형과 처리 방법

Ⅴ. 맺음말

 


Ⅰ. 머리말


고문헌 자료1)에 기록된 정보를 디지털 신호로 전환하고 그것을 데이터베이스에 담아 온라인으로 서비스하는 일은 이제 고문헌 연구자들만의 관심 사항에 그치는 것이 아니라 우리나라 지식 정보 산업의 중요한 부분으로 인정받고 있다. 1999년 이후 연평균 435억 원 규모의 정보 콘텐트 개발 사업비를 투여하고 있는 국책 프로젝트 “지식정보자원관리사업”의 경우,2) 정보화 대상 자원의 40% 이상이 우리나라의 역사에 관련된 기록물들이며, 그 중의 적지 않은 부분이 고전 문헌 또는 그것을 기반으로 만들어진 2차적 저작물들이다.3)

그러나 우리나라의 학술 관련 공공기관을 중심으로 이루어지고 있는 고전 문헌 자료의 정보화는 전자 자료의 생산 업무를 효율화 하고 그 결과물의 활용성을 제고하는 데 필요한 기술적 지반이 미비된 가운데 자료의 양적 증대만을 위주로 추진되어 왔던 것이 현실이다. 그것은 이 분야의 정보화 사업이 IMF 이후 “고학력 실업자 구제”라는 사회복지 시책의 차원에서 갑작스럽게 출발했던 데에 기인한다. 추진체인 정부 부처나 사업 주관 기관 모두 고전 문헌 자료와 정보 기술이라고 하는 상이한 두 분야를 적정하게 맺어 줄 수 있는 연구 개발을 선행시킬 만한 여유가 없었다. 또한 정보화 사업의 개발 실무를 담당한 IT 분야의 사업체들 역시 “고전 문헌 정보화”가 자신들의 전문 비즈니스 영역이 아니었기 때문에 적절한 기술적 솔루션을 마련하지 못하였다.

고전 문헌 자료의 정보화에 필요한 기술적 요소는 데이터 입력 기술, 정보 검색 기술, 독립된 데이터베이스들 사이의 상호 연계 운영을 위한 메타 데이터의 표준화 관련 기술 등 여러 가지가 있지만, 가장 기본이 되는 것은 디지털 매체에 담길 정보의 기본 단위(Unit)를 정하고, 그 단위 정보들 사이의 연관성을 맺어 주는 일, 즉 데이터베이스 내의 자료 구조를 설계하는 일이다.  디지털 매체 상에서의 자료 구조는 데이터베이스 구축 공정의 난이도에 직접적인 영향을 끼치며, 정보 검색 서비스의 품질 및 관련 데이터베이스들 사이의 상호운영성 문제도 개별 데이터베이스의 자료 구조가 얼마나 합리적인가에 좌우된다.

지금까지 고전 문헌의 디지털 자료 구조에 대한 연구로는 문헌정보학 분야에서 고도서 서지 목록 작성에 대한 연구, 고전문학 분야에서 고전 시가의 전산정보화를 위한 연구 등, 특정 분야 자료의 특성을 반영한 전자 문서 작성 방법에 대한 연구가 시도된 바 있다.4) 그러나 정작 대규모의 공공 예산이 투입되고 있는 대형 고전 문헌 정보 데이터베이스 구축과 관련해서는 실무 차원에서의 데이터 분석․설계 업무가 진행되었을 뿐, 이 분야의 데이터베이스 개발에 보편적으로 적용할 만한 디지털 자료 모델의 제시가 이루어지지 못하였다.

기존 연구의 이와 같은 한계는, 고전 문헌의 내용적 특성에 대한 분석은 해당 문헌의 전문가에 의해 가능한 반면, 그 자료가 정보관리 또는 정보검색 시스템 상에서 운영될 수 있도록 하는 것은 전적으로 정보 기술 전문가들에게 의존하는 상황에서 두 분야 사이에서의 기술적 의사소통이 이루어지지 않았던 데 기인한다.  그 결과 고전 문헌 자료의 편찬 방법에 대한 현재까지의 연구는 원시 데이터의 전자 입력 규칙으로만 활용되었을 뿐 정보 시스템 상에서의 데이터 관리와 검색 서비스를 위한 자료 구조 설계에는 큰 영향을 미치지 못하였다. 본 연구는 고전 문헌  분야 전문가의 자료 분석 노력이 데이터의 입력 단계뿐 아니라 정보 관리 및 정보 검색 서비스 차원에서도 실효성 있게 반영되도록 하는 전자적 문서 편찬 방법론을 제시하는 것을 목적으로 한다.



Ⅱ. 고문헌 정보화와 XML


1. 전자문서 편찬의 필요성


디지털화하지 않은 원시 자료가 본래부터 가지고 있던 고유 형식은 그 자체의 필요성과 논리성을 가지고 있겠지만, 그것은 대부분 디지털화의 용이성이나, 디지털화된 이후의 활용성까지 염두에 두고 만들어진 것은 아니다. 그렇기 때문에 모든 원시 자료의 디지털화는 단순히 저장 매체의 전환만으로 완수되는 것이 아니라 원시 자료의 구조와 형식을 재편하는 작업을 수반한다.

원시 자료의 데이터가 그 본래 형태에서부터 전자 정보로서의 형식과 구조를 갖추고 데이터베이스에 들어가 이용자에게 제공되기까지의 과정은 다음과 같이 4 단계로 나누어 볼 수 있다.


 ① 원시 자료 형태의 데이터

 ② 전자 정보로서의 형식과 구조를 갖춘 데이터

 ③ 데이터베이스에 적재된 상태의 데이터

 ④ 이용자에게 제공되는 형태의 데이터


만일 원시 자료가 생성 초기 단계부터 전자 정보로 만들어진다면 ①과 ②의 구분은 불필요하다. 그러나 우리가 “고전 문헌”으로 분류하는 자료를 정보화 하는 경우에는 예외 없이 ①에서 ②로의 과정을 거쳐야 한다.  또한 자료의 규모가 작고 구조가 간단하여 원시 자료를 곧바로 데이터베이스 입력하는 것이 용이하다면 ②와 ③을 하나로 묶을 수도 있다. 그러나 대부분의 고전 문헌 정보화 사업이 대규모의 거질 데이터를 대상으로 하는 현실에서는 ②와 ③이 분업화된 독립 공정으로 이루어지게 된다. 그리고, 과학기술 분야의 실험․실측 데이터나 사회과학 분야의 통계 데이터의 경우에는 ③과 ④를 구분하지 않고, 데이터이스에 수록된 데이터 그 자체를 활용하는 경우도 있지만, 대부분의 문서 중심적(Document-centric) 데이터는 데이터베이스에 수록된 정보를 이용자가 보기 쉬운 형태로 전환하여 표현하는 것이 일반적이다. 고전 문헌 자료의 데이터는 후자에 해당되는 경우가 많다.

결국 고전 문헌 자료가 원시 자료 형태에서 이용자에 디지털화된 정보로 제공되기까지는 최소한 4 단계의 형식 변환을 거친다는 이야기이다. 변환 단계가 많을수록, 또 그 각각의 공정이 복잡할수록 자료의 왜곡과 오류 발생 가능성이 높아진다.  우리가 찾고자 하는 것은 데이터 변환 공정의 복잡성을 최소화하면서 디지털화된  결과물의 유용성을 극대화할 수 있는 효율적인 데이터 가공 모델이다.

앞에서 제시한 여러 단계의 데이터 변환은 각각 수행 주체를 달리한다. ①→②는 원시 자료의 내용을 잘 이해하는 고전 문헌 전문가의 참여가 필수적이다. ②→③은 전산 전문가 중에서도 전자 문서와 데이터베이스의 자료 구조에 대한 지식을 가지고 있는 사람, 또는 그가 개발한 자동화 프로그램이 담당할 영역이다. ③→④는 데이터베이스 응용 프로그래밍 및 이용자 인터페이스 분야의 전문가가 개발한 서비스 프로그램 상에서 수행된다.  각 단계마다 어느 정도 지식과 경험을 갖춘 전문가가 투입되느냐에 따라 최종 결과물로 만들어지는 정보 시스템의 질적 수준이 달라진다고 할 수 있지만, 그 중에서 데이터베이스의 품질에 가장 큰 영향을 주는 것은 첫 번째 과정, 즉 원시 자료를 기계가독적(機械可讀的, machine readable)인 구조 데이터로 만드는 일이다.  고전 문헌 정보 데이터베이스의 품질을 저하시키고, 심지어는 어느 사업을 실패 사례로 간주하게끔 만드는 일은 대부분 이 단계의 작업이 잘못됨으로써 발생한다.  나머지 단계의 일은 정보 시스템 개발 분야에서 이미 널리 적용되고 있는 기술에 의존하는 반면, 고전 문헌과 정보 기술의 접합 영역이라고 할 수 있는 첫 번째 단계의 일은 양 분야의 학제적 교섭이 미진했던 만큼 이에 관련된 지식과 경험이 부족했기 때문이다.


2. 고문헌 정보화 분야의 XML 활용 현황


우리나라의 고전 문헌 정보화 사업 분야에서 원시 자료를 기계가독적인 구조 데이터로 변한하는 작업의 질적 수준은 이 분야 종사자들이 XML(Extensible Mark-up Language)5)이라고 하는 전자문서 마크업 언어를 이해하고 수용한 수준에 비례하여 발전해 왔다고 할 수 있다. XML은 문서에 담긴 정보 요소들과 그 요소들관의 관계를 사람과 기계가 명시적으로 이해할 수 있도록, 원문 텍스트에 부가하는 마크업 기호의 기술 규칙에 관한 규약이다. 원시 자료의 XML 문서화가 정보 시스템 구현의 관건이 되는 이유는 인간만이 다룰 수 있는 대상 자료가 그 작업을 거침으로써 비로소 기계가 다룰 수 있는 자료로 변환되기 때문이다.

원시 자료를 전산 가독형 데이터로 변환할 목적으로 사용하는 여러 가지 마크업 언어 가운데 XML만이 유용하다고는 할 수 없지만, 이것이 현재 국제적으로 널리 통용되고 있는 가장 영향력 있는 언어이며, 다양한 전문 지식 영역에서 이 형식을 활용한 전자 콘텐트의 개발이 활발히 이루어지고 있는 만큼, 고전 문헌의 정보화 분야에서도 이것을 자료 가공의 표준 형식으로 도입하는 데 별다른 이론의 여지가 없다고 할 수 있다.  특히 고전 문헌 자료의 전산화는 1회의 작업으로 원시 자료의 디지털화가 완성되는 것이 아니라, 자료 분석을 통한 새로운 정보 요소의 발굴이 지속적으로 이어져야 하는 성격의 일이기 때문에 자료 구조의 확장이나 변형의 유연성을 최대한 보장하는 XML이 도입․적용이 특히 유용하다고 할 수 있다. 

그러한 이유에서 우리나라의 역사 관련 분야의 공공기관에서 대규모의 고전 문헌 데이터베이스 개발 사업을 시작할 때부터, 데이터베이스 구축 방안에 대해 자문한 정보과학분야 전문가들은 XML의 도입을 적극 권유하여 왔다. 그럼에도 불구하고 초창기 이 분야의 정보화 사업이 XML 도입 권유를 받아들이지 못한 데에는 몇 가지 이유가 있다.  첫째, 정보화 사업의 경험이 없는 주관 기관 관계자들이 마크업 언어를 이용한 자료 가공의 필요성을 전혀 이해하지 못하였고, 둘째, 정보화 사업의 실무를 담당한 IT 사업체들도 XML 응용 기술에 대한 지식이 부족하였으며, 셋째, 당시 우리나라에서는 XML의 도입 필요성을 인정한 경우에도 그것을 실현할 만한 개발 솔루션을 찾기가 어려운 상황이었던 것이 그 이유들이다.

2000년 이후 지식정보자원관리사업을 통해 구축된 우리나라 공공기관의 고전 문헌 데이터베이스의 초기 형태는 XML과 같은 표준화된 마크업 언어를 사용한 전자문서화 과정을 거치지 않고, 단순히 윈시 자료를 “Plain Text"라고 할 수 있는 문자 데이터로 변환하여 관계형 데이터베이스에 적재하는 것이었다.  물론, 원시 자료로부터 정보 요소를 추출, 정리하여 그것을 열과 행 구조를 갖는 2차원 테이블에 수록하는 것은 데이터베이스 구축의 일반적인 방법이라고 할 수 있다. 그러나 그것은 2차원 테이블이 이 분야의 지식 자원을 정보화하는 데 가장 적합한 형태여서가 아니라, 그것만이 거의 유일하게 정보 편찬자들이 사용할 수 있는 정보화 도구로서 제공되었기 때문이다.6) 그러나, 회사 직원들의 인사기록부나 거래처 명부, 부품재고조사표와 같은 비즈니스 분야의 데이터, 또는 학술적인 데이터 중에서도 도서목록이나 과거합격자명부와 같은 정형화된 데이터의 기록이 아닌 지식 저작물은 관계형 데이터베이스에 적합한 자원이 아님이 분명하다. 500여년에 걸쳐 기록된『조선왕조실록(朝鮮王朝實錄)』의 기사나 우리나라 최대 규모의 사료인『승정원일기(承政院日記)』의 기사, 조선시대의 각종 문집에 수록된 갖가지 장르의 시․문들은 정보의 양이 기사에 따라 천차만별일뿐 아니라 그 속에서 추출할 수 있는 정보 요소의 종류도 다양하기 때문에 획일적인 형태의 2차원 테이블에 담아 넣기가 불가능한 것이다.

XML 도입의 여러 가지 이점 중에서도 인문 분야의 콘텐트에 대해 특히 의미 있는 것은 원시 자료를 “있는 그대로의 모습”에 가까운 형태로 정보화할 수 있다는 점이다. 사료적 가치가 높은 역사 기록을 정보화 할 경우, 원시 자료에 담긴 내용을 분석하여 의미 있는 요소만을 추출하고 그것을 데이터베이스에 담는 일도 생각할 수 있지만,  그보다 우선하여야 할 과정은 자료 그 자체를 전자적 환경에서 읽고 분석할 수 있도록 본래 모습을 그대로 부호화 하는 일이다. XML은 원시 자료를 이리 저리 토막내고, 그 중의 일부를 버리고 일부만을 취하는 식의 “데이터 정형화” 과정을 필수적으로 요구하지 않는다. 원시 자료의 모든 내용을 그대로 살린 채, 거기에 자료의 구조나 의미 있는 요소를 명시적으로 알게 하는 마크업 기호를 첨가함으로써 기계적으로 식별 가능한 전자문서를 제작할 수 있게 하는 것이다.

고전 문헌 정보화 사업이 진행되는 동안 정보 기술 분야의 전문가들은 이러한 XML의 장점을 사업 주관 기관과 개발 사업체에게 꾸준히 홍보하였고, 그 결과 최근에 진행되고 있는 고전 문헌 정보 콘텐트 개발 사업에는 XML 도입 적용의 사례가 상당히 늘어나게 되었다. [표 2-1]은 정부의 재정 지원을 기반으로 우리나라의 역사 자료를 소재로 한 데이터베이스 개발하고 있는 기관들의 정보 시스템 현황을 요약한 것이다. 이 표에서 알 수 있듯이 우리나라의 역사 정보 데이터베이스 생산 기관 중 여러 곳이 현재 전면적이든, 부분적이든 텍스트 데이터의 가공 형식으로 XML을 도입․적용하고 있다. 최근 2,3년 사이에 가속화되고 있는 이와 같은 추세는 고전문헌 정보화 분야에서도 XML 문서 형식 도입의 필요성에 대한 인식이 확대되고 있음을 보여 주는 것이다.


[표 2-1] 공공기관의 고문헌 관련 정보 시스템 구축 현황

기관명

프로젝트

콘텐츠

데이터베이스

관리 시스템

(DBMS)

텍스트 데이터 가공 형식

경상대학교 문천각

남명학 관련 고문헌 원문 DB 구축

조식 관련 고문헌, 조식 문인 관련 고문헌, 경상우도 문집, 경상우도 기록류

KRISTAL

XML

plain text

국가보훈처

독립운동관련기록물대국민서비스체제구축

독립운동사, 독립운동사자료집, 해외 독립운동사료, 립운동유공자증언녹취록

ORACLE(9i)

plain text

국사편찬위원회

한국역사정보통합시스템

국역비변사등록, 한국사료총서, 고종시대사, 중추원조사자료, 일제침략하한국36년사, 한국독립운동사자료 등

KRISTAL

XML

plain text

승정원일기 정보화 사업

한문 원전 승정원일기

KRISTAL

XML

조선왕조실록정보화사업

한문 원전 조선왕조실록

KRISTAL

XML

한국역사용어시소러스개발사업

한국역사용어 시소러스

MS-SQL

plain text

독립기념관

한국독립운동사 종합지식정보시스템 구축

독립운동가, 독립운동 유적지, 일제시대 신문자료, 인력수탈구술자료

UNI-SQL

XML

plain text

민족문화추진회

고전국역총서 및 한국문집 총간

고전국역총서, 국역승정원일기, 국역일성록, 국학원전, 한국문집총간

KRISTAL

XML

명지대학교 국제한국학연구소

한국관련 서양고서 원문 DB 구축사업

한국관련 서양고서

ORACLE(9i)

plain text

민주화운동기념사업회

민주화운동사료 DB구축 및 활용사업

민주화운동 관련 사료

ORACLE(9i)

plain text

서울대 규장각

한국학 고전원문 디지털화사업

규장각도서해제, 고지도, 근대정부기록류, 일성록, 내각일력, 승정원일기 등

KRISTAL

XML

plain text

성균관대학교 존경각

한국경학자료 DB구축 사업

한국경학자료

ORACLE(9i)

XML

전쟁기념사업회

한민족전쟁사 관련 자료 디지털화 사업

한국전쟁, 월남전쟁 자료

ORACLE(9i)

plain text

한국국학진흥원

유교문화종합정보 DB구축

영남사림 문집, 도산서원 고문서

KRISTAL, ORACLE(9i)

plain text

한국여성개발원

한국여성사지식정보자원구축사업

여성정책사, 지역여성사, 여성단체활동사, 여성문화교육사

ORACLE(8i)

XML

plain text

한국학중앙연구원

장서각 소장 국학자료 전산화

한국궁중문화역사자료, 야사 및 일기 자료, 명가 소장 고문서 등

ORACLE(10g)

XML

plain text

한국 전근대 인물정보시스템 개발

한국역대인물종합정보

KRISTAL

XML

한국향토문화전자대전편찬사업

한국향토문화전자대전

KRISTAL

XML

  

고전 문헌 데이터베이스 개발 분야에서 XML 도입은 이처럼 확대되고 있지만, 그렇다고 해서 방법과 기술이 만족할 만한 수준에 도달해 있는 것은 아니다. 데이터 가공 단계에서의 XML 적용이 이루어지고 있을 뿐, 데이터베이스의 유지․관리 및 정보 활용의 단계까지 XML 데이터의 특장점을 살려 내는 데이터베이스의 개발이 거의 이루어지고 있지 않은 것이다.7)

어떠한 자료를 대상으로 하건 XML이 할 수 있는 역할은 원시 자료가 본래부터 가지고 있는 구조나 요소를 명시적으로 표시해 주는  것일 뿐 거기에 어떤 새로운 기능, 예컨대 검색이나 통계 기능이 자동적으로 가능하게 해 주는 것은 아니기 때문에 XML화 된 데이터는 정보 시스템 구현을 위해 DBMS나 IRS 등의 소프트웨어8)와 접합한다. 그런데 고전 자료 정보화 사업 현장에서는 데이터의 제작 과정에서 XML 문서를 생성하였다가도 그것을 DBMS에 탑재하는 과정에서 다시 평면적인 데이터로 환원시켜 버리는 일이 빈번하게 발생하고 있다. 

그러한 현상의 주된 원인은 관계형 DB 구조에만 익숙한 데이터베이스 개발자들이 XML로 마크업된 소스 데이터의 복합적인 구조를 무시하고 DB 로딩이 용이한 방법을 취하기 때문이다.9)  몸에 맞도록 옷을 만드는 것이 아니라, 옷에 맞추어 몸을 재단하는 격이라고 할 수 있다. 이러한 문제를 야기하는 요인은 첫째, 데이터베이스 개발자들이 선호하는 관계형 데이터베이스 관리 소프트웨어가 대부분 XML 문서를 수용하는 데 큰 제약이 있다고 하는 점이며,  둘째, 콘텐트 제작자들이 XML 문서를 생산함에 있어 그와 같은 제약을 고려하지 않고, 데이터의 규모나 활용 방향과 무관하게 일반적인 문서 형태의 콘텐트를 만들고자 하는 데 있다고 할 수 있다.

데이터베이스 입력 데이터가 XML 전자문서로 만들어졌다면, XML 문서의 장점인 구조의 유연성이 데이터베이스의 유지․관리 차원에서도 보장되어야 한다. 정보의 활용시에는 정보 이용자가 원시 데이터의 본래적인 구조․형식을 그대로 확인할 수 있게 하면서, 의미 있는 내용 요소를 분석적으로 드러내 주거나 그것에 대한 특화된 검색이 가능하도록 해야 한다. 

이상적인 길은 콘텐트 제작자가 만든 XML 문서의 형식과 내용이 어떠하든, DBMS나 IRS가 그것을 2차적인 가공 없이 그대로 수용하여 편리하게 관리하고 활용할 수 있게 해 주는 것이다.10) 하지만 그것이 기술적으로 가능하지 않거나, 그 과정이 매우 복잡하고 오류를 일으킬 가능성이 많아 현실적으로 추구할 만한 방법이 아니라고 한다면 차선의 방책을 찾아야 한다. 필자가 제안하는 방법은 현재의 일반적인 데이터베이스 개발 및 운영 환경을 고려하여, XML 문서의 제작 단계에서부터 원시 자료의 특성을 충분히 반영하면서 동시에 DBMS 탑재가 용이한 문서를 만드는 것이다.11)



Ⅲ. 기본 저장 단위의 구조화


1. 문서 중심적 XML의 특징


방대한 양의 원시 자료를 정보화 하기 위해서 XML 전자 문서를 제작하는 것은 바꿔 말해, DBMS나 IRS에 탑재하기 위한 XML 문서를 만드는 것이라고 할 수 있다. 이러한 XML 문서는 파일 상태에서 바로 웹 브라우저에 띠워 볼 수 있는 형태의 XML 문서와는 다른 형태로 만들어져야 한다. 사실상 XML 문서를 어떠한 형태로 만들어야 하는가에 대해 특별히 정해진 기준은 없다. 문서 내부 요소들 간에 논리적 결함이 없는 Well Formed 문서이거나 그 요소들이 DTD나 XML Schema에 정의된 내용과 부합하는 Valid 문서인 경우, XML 문서로서의 요건을 모두 갖추었다고 할 수 있으며, 그 이상의 조건은 만들어진 XML 문서를 어떻게 활용할 것이냐에 따라 수 만 가지로 다르게 제시될 수 있을 것이다. 고전 문헌의 정보화를 위해 시급하게 강구되어야 할 기술은 고전 문헌 중에서도 그 양적 규모가 방대하여 필수적으로 DBMS나 IRS 탑재를 고려해야 하는 자료의 효율적인 XML 문서화 방안을 찾는 것이다.

XML 문서 형식을 좇아 만들어진 데이터라 하더라도 그 성격에 따라 “데이터 중심적”(Data-centric)인 것과 “문서 중심적”(Document-centric)인 것으로 구분할 수 있다. 데이터 중심적인 XML은 관계형 데이터베이스의 2차원 테이블에 담기는 정보처럼 정형화된 구조를 갖는다. 주소록이나 도서목록, 상품목록 등의 데이터를 XML 문서로 제작하는 경우 데이터 중심적인 XML이 만들어질 것이다. 이에 반해 문서 중심적 XML은 비정형적인 구조를 갖는다. 한 편의 논문을 XML 문서로 제작했다면 이것은 문서 중심적인 XML이다.12)

XML 문서를 이처럼 데이터 중심적인 것과 문서 중심적인 것으로 구분하는 이유는 정보 시스템 상에서 데이터의 기본 단위로 취급하는 요소들이 달라지기 때문이다. 데이터 중심적인 XML 문서를 데이터베이스에 적재할 때에는 XML 문서 상에서 일정하게 반복되는 요소들의 집합이 데이터베이스 상에서의 “논리적 저장의 기본 단위”(fundamental unit of logical storage)를 이룬다.13) 다시 말해, 관계형 데이터베이스의 한 레코드나 객체지향형 데이터베이스의 한 오브젝트가 되는 것이다.  문서 중심적인 XML인 경우에는 하나의  XML 문서 전체 또는 PCDATA와 하위 엘리먼트가 섞여 있는 혼합 엘리먼트(Mixed Element)가 데이터베이스 상의 기본 저장 단위로 된다.

XML 문서를 데이터베이스에 적재할 때 데이터 중심적인 XML은 그다지 복잡한 문제를 야기하지 않는다. 자료 구조가 정형적이고 정보 요소의 기술이 규칙적이기 때문에 XML 문서 상의 요소(Element)와 속성(Attribute)을 데이터베이스 상의 기본 저장 단위에 매핑시키는 것이 용이하다. 그러나 문서 중심적인 XML에서는 그 문서의 어느 부분을 데이터베이스화를 위한 기본 저장 단위로 삼아야 할지에 대한 판단이 쉽지 않다. 대상 자료가 여러 개의 독립된  XML 문서로 이루어진 경우에는 하나의 XML 문서를 데이터베이스 상의 한 레코드로 만들 수 있을 것이다. 그러나 방대한 규모의 텍스트 전체가 하나의 XML 문서를 이루는 경우에는 자료의 성격을 정확하게 이해하고, 결과물의 활용 목적을 분명히 한 후에 데이터베이스 상의 저장 단위를 구획해 내어야 한다.

문서 중심적 XML의 DB화가 쉽지 않은 이유는 근본적으로 XML 문서의 계층적 자료 구조와 일반적인 데이터베이스 개발 도구(DBMS)가 지원하는 평면적인 자료 구조 사이의 소통이 용이하지 않은 데 기인한다.  고전 문헌 정보화 사업에 참여하는 데이터베이스 개발자들이 저지르기 쉬운 실책의 하나는 XML과 DBMS가 친화적이지 않음에도 불구하고, 양자의 소통에 대한 고려를 거의 하지 않는다는 사실이다. XML 문서 설계와 데이터베이스 자료 구조 설계를 따로따로 함으로써 막상 XML 문서 내용을 데이터베이스 담으려 할 때 자료 구조의 상이성으로 인해 큰 어려움을 겪는다. 우리나라  고전 문헌 정보화 사업의 대상 자료는 대부분 고도서, 고문서 등의 비정형 Full Text 데이터이다. 그러한 성격의 원시 자료를 토대로 한 XML 문서는 당연히 문서 중심적 XML로 분류될 수 있는 성격의 것이다. XML 문서를 설계하는 과정에서부터 데이터베이스화의 편의성을 최대한 고려하는 것이 문제의 해결을 쉽게 하는 비결일 수 있다. 우리나라 고전문헌 자료의 실례를 통해 문서 중심적 XML의 데이터베이스화 방안을 찾아 보기로 한다.


2. 고문헌 자료의 구조적 특성


다음은 현재 진행되고 있는 고전 문헌 정보화 사업의 대상 자료 가운데 양적 규모가 가장 크다고 할 수 있는『승정원일기(承政院日記)』14)와『한국문집총간(韓國文集叢刊』15)수록 문집 데이터에의 일부분이다.


[예시 3-1]『승정원일기』 원시 데이터

≪承政院日記≫ 

 

◎ 孝宗

 

8년 

정유년; 조선: 효종 8; 중국: 順治(淸/世祖) 14; 서양: 1657~1658 

 

1월 

 

2일 

정유년 을사 효종 8-1-2; 順治(淸/世祖) 14-1-2

초서 원본: 제144책;  탈초 영인: 제8책 

날씨: 晴

좌목: 都承旨 李應蓍 坐 。 左承旨 金素 坐直 。 右承旨 蔡忠元 病 。 左副承旨 洪處亮 坐 。 右副承旨 尹鏶 坐直 。 同副承旨 金壽恒 坐 。 注書 二員未差。 假注書 李夏 仕 。 李光迪 仕直 。 事變假注書 權大載 病 。 

 

§ 昌德宮에 머뭄。 常參과 經筵을 정지함

 

上在 昌德宮 。 停常參·經筵。 

 

§ 仁順王后의 忌辰일임

 

仁順王后 忌辰。 

 

§ 省記를 들인 후 오지 않은 武兼宣傳官 李馪과 權譜의 從重推考를 청한 兵曹의 계

 

尹鏶 , 以兵曹言啓曰:“卽接武臣兼宣傳官廳所稟, 則武兼宣傳官 李馪 · 權譜 兩人, 入省記後, 終不入來, 以致闕直云, 其間事狀, 有不可知, 而莫重宿衛重地, 無緣闕直, 事極驚駭, 李馪 · 權譜 等, 姑先從重推考何如?” 傳曰:“允。” 以上燼餘


[예시 3-2]『한국문집총간』 원시 데이터

≪韓國文集叢刊≫ 

 

◎ 旅軒集

  

卷之一

 

 

§ 謁圃隱先生畫像詞

 

宇宙間不可久者形氣。人過百年兮孰存其身。而其不可泯者德義。經千百代兮。敎化在人。仰其不可泯者而思其不可久。髣髴眞容兮曷因。何幸後先生二百有餘載。獲拜儀形於今日。噫噫。非道德節義之其一人於吾東者。令人覩遺像而感激欣幸乃至此極。..... 彼或致疑乎不可明之迹於不可詰之地者。是實未究乎其道與德。然則當何以見先生之心事。有天地有日月。


[예시 3-1]은 역사적 사실을 일기 형식으로 기록한 일종의 연대기적 역사 기록(Chronological History)이며, [예시 3-2]는 개인이 남긴 글을 장르별로 집대성한 문집(Literary Collection)이다. 성격과 내용은 상이하지만, 두 종류의 자료가 모두 체계적인 계층적 구조를 갖도록 편찬되었다는 사실을 알 수 있다. 두 종류의 자료에서 구조적인 골격만을 추출하여 도시하면 다음과 같다.


[예시 3-3]『승정원일기』 편찬 체계

Level 1. 자료: 承政院日記

        Level 2. 왕대: 孝宗

                Level 3. 년: 8년

                        Level 4. 월: 1월

                                Level 5: 일: 2일

                                        Level 6. 기사: 기사1

                                        Level 6. 기사: 기사2

                                        Level 6. 기사: 기사3

                                        Level 6. 기사: 기사4


[예시 3-4]『한국문집총간』 편찬 체계

Level 1. 자료: 韓國文集叢刊

        Level 2. 문집: 旅軒集

                Level 3. 권차: 卷之一

                        Level 4. 장르: 詞

                                Level 5. 기사: 謁圃隱先生畫像詞


고전 문헌의 이와 같은 편찬 체계만 보아도 XML이 그것을 전자정보화 하는 적절한 수단이 될 수 있음을 알 수 있다. 원시 자료의 정보 요소 상호간의 구조가 전자문서 상에서 명시적으로16) 표시되도록 하는 것은 XML 마크업이 담당하는 중요한 기능 중의 하나이기 때문이다. 이와 같은 원시 자료의 편찬 체계를 재현하는 데 주안점을 두고 XML 전자 문서를 설계한다면  그것은 다음과 같은 형식이 될 것이다.


[예시 3-5]『승정원일기』 자료 구조

<자료> 承政院日記

        <왕대> 孝宗

                <재위년> 8년

                        <월> 1월

                                <일> 2일

                                        <기사>

                                                기사 1.

                                        </기사>

                                        <기사>

                                                기사 2.

                                        </기사>

                                        .....

                                </일>

                        </월>

                </재위년>

        </왕대>

</자료>


[예시 3-6]『한국문집총간』 자료 구조

<자료> 韓國文集叢刊

        <문집> 旅軒集

                <권차> 卷之一

                        <장르> 詞

                                <기사>

                                        기사 1.

                                </기사>

                                <기사>

                                        기사 2.

                                </기사>

                              .....

                        </장르>

                </권차>

        </문집>

</자료>


이와 같은 형태의 계층적 문서 기술(記述)은 상위 요소가 하위 요소를 포함하고 있음을 명시적으로 보여 주는 장점이 있다. 만일 대상 자료의 크기가 작아서 하나의 문서로 취급하는 데 문제가 없다면, 또는 데이터베이스 적재를 고려하지 않고 전자문서의 제작만을 최종 목표로 한다면 이 방법은 권장할 만하다. 그러나 대상 자료가『승정원일기』나『조선왕조실록』 또는 거질의 문집 자료여서 데이터베이스 관리 도구의 사용이 필수적이라고 한다면 위와 같은 형태의 XML 문서 설계는 적절하지 않다. 그 이유는 첫째, 전자문서의 편집 단계에서 마크업 기호의 기입이 용이하지 않으며, 둘째, 데이터베이스 적재를 위해 필수적으로 요구되는 자료의 분절(fragmentation)이 어렵다는 것이다.

편집 단계에서 마크업 기호의 기입이 용이하지 않다는 것은 데이터의 방대함 때문에 요소의 시작 태그와 종료 태그의 간격이 과도하게 벌어지게 되고, 그로 인해 태그 기입의 오류가 발생할 가능성이 높아지게 된다는 것이다.  사례에 보인 승정원일기 전자문서의 <왕대> 요소나 <재위년> 요소는 하위 요소의 자료량이 수백 페이지 또는 수천 페이지 분량이 된다. 시작 테그를 기입하고 수 천 페이지를 지나 종료 태그를 기입하는 것은 논리적으로 가능지만 현실적인 데이터 입력 작업에서는 매우 많은 어려움이 따른다.

두 번째 문제점은 입력된 데이터를 DBMS나 IRS에 적재할 때 발생한다. 대부분의 데이터베이스 관리 시스템은 자료의 효과적인 관리와 검색을 위해 전체 데이터를 여러개의 “논리적 저장의 기본 단위”(fundamental unit of logical storage) - 통상적으로 레코드(record)라고 칭한다.17) - 로 구획하는 데, 그 구획된 하나 하나의 개체를  XML 문서의 경우 단위 문서의 양이 작을 때에는 한 문서 전체를 데이터베이스의 한 레코드에 담을 수 있다. 그러나 문서의 크기가 방대할 경우, 그것을 작은 단위로 나누어 저장해야 하는데, 위와 같이 상위 요소가 하위 요소를 포섭하는 형태의 XML 문서는 레코드 생성을 위한 데이터 구획의 절차가 복잡하고, 그 결과물의 이용도 효율적이지 못한 단점이 있다.


3. 계층 구조 자료의 정보화를 위한 XML 모델


앞에서 살펴 본『승정원일기』와『한국문집총간』 XML 문서의 기술 방식은 다음 그림에서 도시한 것처럼 상위 요소가 하위 요소를 포함하도록 하는 구조를 좇은 것이다.  상위 요소가 그 내부에 하위 요소들을 완전히 포함하는 구조이므로 이를 “내포형 모델”(Inclusive Model)이라고 부르기로 한다.


[예시 3-7] 내포형 모델로 표현한 계층 구조 데이터


이 “내포형 모델”은 XML  구조 문서의 일반적인 형태이기는 하나 계층 구조의 자료가 꼭 이와 같은 모델로만 표현될 수 있는 것이 아니다.  다음 그림은 동일한 내용의 데이터를 가계도(Family Tree)와 같은 나무형 구조로 표현한 것이다. 즉,『승정원일기』 책 전체를 대표하는 요소를 가장 위에 두고 그 아래에 각 왕대를 대표하는 요소, 재위년을 대표하는 요소, 월을 대표하는 요소, 일을 대표하는 요소를 계층적 순서에 따라 소속시키고, 가장 밑에 단위 기사 요소를 두는 것이다. 이는 마치 한 가문의 조상에서부터 마지막 자손까지의 혈족 관계를 표시한 가계도와 유사한 모습을 보이므로 “계보형 모델”(Genealogical Model)이라고 이름하기로 한다.


[예시 3-8] 계보형 모델로 표현한 계층 구조 데이터


동일한 자료의 구조를 “내포형 모델”로 파악하느냐, “계보형 모델”로 파악하느냐 하는 것은 관점의 차이에 불과할 수도 있다. 하지만 그 관점의 차이가 XML 전자문서의 형식을 결정하는 데에는 큰 영향을 미친다.

계보형 모델을 적용하였을 경우, 상위․하위의 구분 없이 모든 개체는 작은 크기의 데이터를 가질 수 있게 된다. 포함형 모델에서처럼 상위로 올라갈수록 개체의 크기가 기하급수적으로 증가되는 것이 아니다. 계보형 모델의 이러한 특징은 전자 문서의 제작을 용이하게 하는 순기능을 발휘한다.  즉, 포함형 모델을 적용했을 경우 “왕대”나 “재위년”과 같은 상위 요소의 시작 위치를  표시한 후, 엄청난 양의 하위 데이터를 입력하거나 편집한 후에 그 요소의 종료 위치를 표시하게 되는데, 계보형 모델에서는 그러한 불편을 겪지 않아도 되는 것이다. 또한 계보형 모델에서는 이미 각각의 개체가 비슷한 규모의 작은 단위로 나뉘어져 있기 때문에 그것을 DBMS와 같은 관리 프로그램에 싣는 일도 용이해진다. 하나의 개체를 하나의 레코드 또는 하나의 오브젝트에 담으면 되는 것이다.

하지만 계보형 모델이 장점만을 가지고 있는 것은 아니다. 상위 요소와 하위 요소의 관계를 정확하게 맺어 주는 별도의 장치를 마련하지 않는 한, 개별 개체의 올바른 위치가 어디인지 불분명해진다.

계보형 모델의 XML 문서를 설계할 경우, 요소(Element)의 이름만으로 확인되지 않는 요소 간의 관계를 명확하게 하기 위해서는 이를 요소의 속성(Attribute)으로 정의하는 일이 필요하다. 다음은 위에 예시한『승정원일기』 데이터를 계보형 모델의 XML 문서로 구현한 예이다.


[예시 3-9]『승정원일기』XML 전자 문서(계보형 모델)

<?XML version="1.0" encoding="utf-8"?>

<?XML-stylesheet type="text/xsl" href="sjw2005.xsl"?>

<!DOCTYPE 자료 SYSTEM "sjw2005.dtd">

<자료>

        <문서 유형="L" 수준="1" 식별자="SJW">

                <표제>≪承政院日記≫</표제>

                ..........

        </문서>

        <문서 유형="L" 수준="2" 식별자="SJW-B">

                <표제>孝宗</표제>

                ..........

        </문서>

        <문서 유형="L" 수준="3" 식별자="SJW-B-08">

                <표제>8년</표제>

                ..........

        </문서>

        <문서 유형="L" 수준="4" 식별자="SJW-B-08-01">

                <표제>1월</표제>

                ..........

        </문서>

        <문서 유형="L" 수준="5" 식별자="SJW-B-08-01-02">

                <표제>2일</표제>

                ..........

        </문서>

        <문서 유형="T" 수준="6" 식별자="SJW-B-08-01-02-001">

                <표제>昌德宮에 머뭄。 常參과 經筵을 정지함</표제>

                ..........

        </문서>

</자료>


위에 제시한 XML 문서 예시에서는 계층 구조를 이루는 여러 수준의 개체를 모두 <문서>라고 하는 같은 이름의 요소로 표현하였다. 앞에서 살펴 본 내포형 모델에서는 『승정원일기』 전체 데이터를 하나의 XML 문서로 간주한 반면, 여기서는 그 자료 안에서 계층 구조를 이루는 노드들을 각각 하나씩의 XML 문서로 간주하고,『승정원일기』 전체는 그러한 개별 문서의 집합으로 이해한 것이라고 할 수 있다.  피상적으로만 살피게 되면 이러한 방법은 원시 자료의 구조적 특성을 무시하고 모든 개체를 평면적 데이터로 환원시킨 것처럼 보인다. 그러나 그와 같은 손실을 막기 위해 개체를 표시하는 요소 <문서>에는 자료 전체의 구조 속에서 해당 개체가 어떠한 위상에 있는가를 알게 하는 속성 “수준”이 부여되어 있다. 이 속성 정보가 있음으로써 XML 문서 상에서 원시 자료의 구조적인 특성이 손실 없이 유지될 수가 있으며, 데이터베이스 적재시 별다른 구조 변경을 거치지 않고도 계층적인 Tree 구조 모델을 재현할 수 있다.

계층적 구조 속에서 개체의 위치가 보다 엄밀하게 관리될 수 있기 위해서는 “수준” 속성과 함께 해당 개체가 속한 상위 개체 및 문맥의 전후 관계에 따른 개체간 순서를 알려 주는 정보들이 필요하다. 단,『승정원일기』나『한국문집총간』 데이터처럼 원시 자료의 내용이 이미 확정된 문서를 순서에 따라 전자문서화 하는 경우에는 해당 개체로부터 가장 가까운 곳에 존재하는 상위 레벨의 개체가 부모 노드(parent node)가 되고, 같은 수준에서 앞 뒤에 있는 노들이 형제 노드(sibling nodes)가 되기 때문에 이를 위한 별도의 속성 부여를 생략해도 무방하다.18)

계보형 모델의 XML 문서를 생산할 때 가장 먼저 주의해야 할 점은 계보 관계를 맺는 개체를 어느 수준[깊이]까지로 할 것인지를 정하는 것이다. 이것은 XML 데이터를 데이터베이스에 적재할 때 “논리적 저장의 기본 단위”(fundamental unit of logical storage)를 무엇으로 할 것인지를 정하는 문제와 직결된다. 이에 대한 의사 결정은 전적으로 자료의 성격과 내용에 따라 이루어져야 한다. 예시에서 보인 “승정원일기”의 데이터의 경우 최하위 개체를 “기사”로 정하였으며, 최상위 개체로부터의 깊이는 6 단계로 하였는데, 이 “기사” 요소 아래에는 “기사 제목”, “기사 본문”과 같은 하위 요소가 존재하며, 또 “기사 본문” 아래에는 “문단”과 같은 요소가 오게 된다. 이 경우 그 모든 요소들을 계보형 모델의 개체로 표현하는 것은 불필요할 뿐 아니라, 정보의 활용성을 현저히 떨어뜨리는 결과를 초래한다.『승정원일기』에서는 그 날 그 날 발생한 특정 주제의 기사가 가장 기본적인 내용 단위가 되기 때문에 그 “기사”까지만 개체의 지위를 부여하고, 그 하위 요소는 개체의 내용에 포함되는 것으로 간주할 필요가 있는 것이다.

『한국문집총간』의 경우에도『승정원일기』에서와 동일한 기준을 적용하여 데이터베이스의 기본 저장 단위와 일치하는 요소들을 지정할 수 있다. 일정 규모 이상의 본문 텍스트를 포함하는 <기사> 요소와 그 상위에 있는 <문집>, <권차>, <장르> 요소들이 각각 데이터베이스 상의 한 레코드가 되도록 하는 것이다.

고전 문헌에 속하는 다른 자료들도 어느 정도까지는『승정원일』기나『한국문집총간』의 자료 구조와 유사한 체계를 가지고 있다고 할 수 있다. 그러한 점에서 본 논문에서 제시하는 데이터의 내용 구조와 데이터베이스의 저장 구조를 일치시키는 XML 문서화 방안은 여러 종류의 고전 문헌 정보화에 유용하게 적용할 수 있을 것이다. 단, 자료 구조라고 하는 것은 어디까지나 실물 자료의 내용적 특성에 의존하는 것이므로 특수한 성격의 자료를 만났을 때에는 보편적인 기준과 함께 그 자료만의 고유한 특성을 반영하는 구조화 방안을 찾아야 하는 것임은 재론할 필요가 없다. 중요한 사실은 어떠한 자료를 만나건 그것의 데이터베이스화가 목적이라면 그 목적을 효과적으로 달성할 수 있는 XML 문서 구조를 강구해야 한다는 것이다.



Ⅳ. 기본 저장 단위 내부 요소의 정보화


1. 혼합 요소의 처리의 문제점


고전 문헌 자료의 어느 부분을 데이터베이스의 “논리적 저장의 기본 단위”(fundamental unit of logical storage)로 할 것인가의 문제에 대해 적절한 방책이 세워졌다면, 그 다음으로 강구해야 할 과제는 기본 저장 단위 내의 정보 요소들을 어떻게 처리해야 할 것인가 하는 문제이다. 전자가 큰 규모의 자료를 작은 단위의 XML 문서로 나누는 일이었다고 한다면, 후자는 단위 문서 안의 더 작은 정보 요소들을 분석해 내는 일이라고 할 수 있다.

XML 문서의 구성 인자는 요소(要素, element)와 속성(屬性, attribute)이다. 데이터 중심적 XML이나 문서 중심적 XML이 모두 하위 인자로서 요소와 속성을 갖지만, 문서 중심적 XML은 이른바 혼합 요소(混合要素, mixed element)를 갖는다는 점에서 데이터 중심적 XML과 구별된다. 혼합 요소란 요소 값을 이루는 텍스트[PCDATA] 안에 하위 요소(下位要素, sub-elements)가 혼재하는 요소를 말한다.


다음 두 종류의 XML 데이터를 비교해 보기로 하지


[예시 4-1]

<문헌>

        <저자>任允摯堂</저자>

        <서명>『允摯堂遺稿』</서명>

        <간행년>1796년(정조 20)</간행년>

        <편자>申光祐</편자>

         <편자>任靖周</편자>

</문헌>


[예시 4-2]

<문단>

<인명>任允摯堂</인명>이 남긴 글들은 그의 사후 <연도>1796년(정조 20)</연도>에  <서명>『允摯堂遺稿』</서명>라는 제호로 친동생  <인명>任靖周</인명>와 시동생 <인명>申光祐</인명>에 의해 간행되었다.

</문단>


[예시 4-1]과 [예시 4-2]는 유사한 정보를 담고 있지만, 기술 형식이 다르다. [예시 4-1]의 <문헌> 요소는 <저자>, <서명>, <간행년>, <편찬자> 등의 하위 요소를 가지고 있고, 문자 데이터는 그 하위 요소의 값으로만 쓰인다. 그에 반해 [예시 4-2]의 <문단> 요소는 <인명>, <서명>, <연도> 등의 하위 요소와 문자 데이터가 혼재된 값을 가진다. 두 종류의 XML 데이터는 DTD 기술에서 다음과 같은 차이를 보인다.


[예시 4-3] ‘예시 4-1’의 DTD

<!ELEMENT 문헌 (저자, 서명, 간행년, 편자*)>

<!ELEMENT 저자 (#PCDATA)>

<!ELEMENT 서명 (#PCDATA)>

<!ELEMENT 간행년 (#PCDATA)>

<!ELEMENT 편자 (#PCDATA)>


[예시 4-4] ‘예시 4-2’의 DTD

<!ELEMENT 문단 (#PCDATA | 인명 | 서명 | 연도)*>  <!--Mixed Element-->

<!ELEMENT 인명 (#PCDATA)>

<!ELEMENT 서명 (#PCDATA)>

<!ELEMENT 연도 (#PCDATA)>


우리가 [예시 4-2]의 <문단> 요소와 같은 “횬합 요소”의 처리 문제에 대해 각별한 관심을 갖는 이유는 고전 문헌 자료의 대부분이 그와 같은 형태의 혼합 요소를 포함하는 문서 중심적 XML의 성격을 갖기 때문이다.

[예시 4-1]과 같은 데이터 중심적 XML은, 정보 요소를 데이터베이스의 기본 저장 단위에 배분하는 작업이 용이했던 것처럼, 그 하위 요소를 처리하는 것도 상대적으로 용이한 편이다. 다음은 [예시 4-1]의 XML 데이터를 관계형 데이터베이스나 스프레드쉬트의 2차원 테이블에 옮겨 놓은 모습이다.


[예시 4-5] '예시 4-1'의 관계형 DB 데이터 형태

저자

서명

간행년

(서기)

간행년

(왕대)

편찬자1

편찬자2

....

....

....

 

....

 

任允摯堂

允摯堂遺稿

1796년

정조 20

任靖周

申光祐

....

....

....

 

....

 


그러면 [예시 4-2]에서 보이는 바와 같은 문서 중심적 XML 데이터는 어떠한 형태로 데이터베이스에 등재되어야 할까?

2차원 테이블을 데이터베이스화의 유일한 방법으로 전제하는 한, 문서 중심적 XML의 혼합 요소를 처리할 수 있는 방안은 도출되지 않는다. 억지로 방법을 찾는다면,  <문단> 요소 전체를 데이베이스 레코드의 한 컬럼(Column)에 담는 방안을 강구할 수 있을 것이다. 그러나 이 경우에는 <서명>, <인명> 등의 하위 요소를 구분해 준 노력이 무의미해진다. 관계형 데이터베이스 안의 한 컬럼에 담긴 정보는 더 이상 분석되지 않기 때문이다.

데이터베이스 관리 도구로서 관계형 DBMS만을 사용할 줄 알았던 우리나라 IT 업계의 개발 관행 때문에 고전 문헌 자료의 정보화는 여러 해 동안 텍스트 내의 중요한 정보 요소들을 정보화하지 못하는 우를 범하였다. 문자 데이터와 혼재된 정보 요소의 처리가 불가능하다고 전제하고, 그러한 정보들은 XML 요소화 대상에서 제외시켜 왔던 것이다.19)

그러나, 2004년 이후 KRISTAL 2002와 같은 XML Enabled Database 관리 도구가 보급되면서 그와 같은 환경의 제약은 크게 개선되었다. 데이터베이스 관리 시스템이  엔진 레벨에서 혼합 요소의 분석 기능을 수행하여 텍스트와 혼재된 하위 요소들을 분석해 내고, 요소별 색인의 생성도 지원하게 된 것이다.20)  이처럼 개발 환경이 개선된 상황에서는 원시 자료의 특성에 부합하는 수준 높은 전자 텍스트를 만들어 내야 하는 책임이 정보 가공자에게 돌아오게 된다.  고전 문헌 자료를 전자문서화 함에 있어 의 본문 속에 혼재된 정보 요소들을 제대로 정보화 하는 방법이 강구되어야 하는 것이다. 


2. 문중 요소 처리의 필요성


필자는 문서 중심적 XML에 쓰이는 혼합 요소의 하위 요소로서 문자 데이터 안에 섞여서 나오는 요소를 특별히 지목하여 “문중 요소”(文中要素, In-Text Element)라고 부르기로 한다.21) 본문 텍스트가  문중 요소를 갖도록 하는 경우 어떠한 효과를 기대할 수 있을까? 고전 문헌 자료를 대상으로 한 XML 문서 상에서  문중 요소를 표기한 사례를 보기로 한다.


[예시 4-6] 문중 요소를 포함하는『승정원일기』 XML 문서

<문서 유형="T" 수준="6" 식별자="SJW-B-08-01-02-003">

<표제>

省記를 들인 후 오지 않은 武兼宣傳官 <인명>李馪</인명>과 <인명>權譜</인명>의 從重推考를 청한 兵曹의 계

</표제>

<관리정보>

     ........

</관리정보>

<본문>

<문단>

○ <인명>尹鏶</인명>, 以兵曹言啓曰:“卽接武臣兼宣傳官廳所稟, 則武兼宣傳官<인명>李馪</인명>·<인명>權譜</인명>兩人, 入省記後, 終不入來, 以致闕直云, 其間事狀, 有不可知, 而莫重宿衛重地, 無緣闕直, 事極驚駭, <인명>李馪</인명>·<인명>權譜</인명>等, 姑先從重推考何如?” 傳曰:“允。” <원주>以上燼餘</원주>

</문단>

</본문>

</문서>


[예시 4-7] 브라우저 상에서의 ‘예시 4-6’ 문서 표시 형태

§ 省記를 들인 후 오지 않은 武兼宣傳官 李馪權譜의 從重推考를 청한 兵曹의 계

 

     ........

 

尹鏶, 以兵曹言啓曰:“卽接武臣兼宣傳官廳所稟, 則武兼宣傳官李馪·權譜兩人, 入省記後, 終不入來, 以致闕直云, 其間事狀, 有不可知, 而莫重宿衛重地, 無緣闕直, 事極驚駭, 李馪·權譜等, 姑先從重推考何如?” 傳曰:“允。” 以上燼餘


위에서 보인『승정원일기』 XML 예문에서는 <문단> 요소의 텍스트 내에 등장하는 모든 “인명”과 기사 원문의 편찬자가 기입한 주석문[“원주”]를 별도의 정보 요소로 처리하였다. 이 예에서 보듯이 본문 중의 “인명”과 같은 고유명사가 정보 단위로 처리되었느냐 아니냐에 따라 텍스트의 가독성이 현저하게 달라진다. 특히 전자화된 텍스트를 온라인 상에서 서비스할 때 인명, 지명, 서명 등을 나타내는 문자를 색상 처리하는 것도 가능하기 때문에 정보 이용자가 텍스트의 내용을 이해하는 데 크게 도움이 된다.22)  중국에서 자국의 25대 왕조 정사『이십오사(二十五史)』를 현대적인 출판물로 간행할 때  인명, 지명 등의 고유명사에 대해 이른바 전명부(專名符)라고 하는 부호를 부가한 것은 바로 독자들을 위해 텍스트의 가독성을 높이기 위한 것이었다. 고전 문헌 자료의  “문중 요소” 처리 문제는『이십오사』의 경우와 같이 문장 속의 정보 요소들을 쉽게 인식할 있게 한다는 취지에서 제기된 것이지만,23) 그 결과물의 활용도는 단순히 텍스트의 가독성을 높이는 데 그치는 것이 아니라, 관련 자료의 상호 참조 및 자료의 내용 분석 등에까지 이어지게 된다.

XML 기반의 전자 텍스트로 만들어진 고전 자료의 궁극적인 활용 형태는 상호 유관한 내용을 담고 있는 자료들이 서로 꼬리에 꼬리를 물고 연결되어서 정보 이용자의 지식 획득에 도움을 주는 것이다. 하이퍼텍스트(Hyper Text)라고 일컬어지는 이러한 형태의 정보 시스템을 구현하기 위해서는 무엇보다도 먼저 텍스트와 텍스트 사이의 연계 고리 역할을 할 수 있는 키워드를 찾아내고, 그것에 대해 일정한 식별자를 부여함으로써 유관한 내용의 텍스트들이 그러한 키워드를 명시적으로 공유할 수 있도록 해야 한다. 우리가 고전 문헌 텍스트 속의 인명, 지명 요소를 중요하게 생각하는 이유는 그것이 상호 유관 자료들을 연계하는 키워드의 역할을 할 수 있기 때문이며, 그러한 키워드를 매개로 고전 문헌 자료를 수준 높은 하이퍼텍스트 형 지식 정보 데이터베이스로 만들어 갈 수 있기 때문이다.


3. 문중 요소의 유형과 처리 방법


문장 속에 포함된 정보 요소, 즉 문중 요소의 처리를 위해서는 먼저 어떠한 요소들이 정보 단위로서 식별되어야 하는지를 정해야 한다. 물론 이것은 정보 자료의 종류, 내용, 활용 목적에 따라 달라질 것이기 때문에 그 구체적인 작업은 실제적인 정보화 과정에서 이루어질 수밖에 없다. 단, 본고에서는 고전 문헌 자료를 정보화 할 때 일반적으로 고려되는 사항들을 중심으로 문장 내 요소 처리의 대체적인 방향을 제시해 보고자 한다.

고전 문헌 자료를 하이퍼텍스트 형 정보 데이터베이스로 만들기 위해 그것의 XML 전자 문서에 부가해야 문중 요소는 그 기능에 따라 다음과 같이 4 종류로 구분하여 볼 수 있다.


① 키워드의 식별을 위한 요소

② 주석문의 처리를 위한 요소

③ 유관 자료의 상호 연계를 위한 요소

④ 시․공간 정보 관리를 위한 요소


첫 번째 유형인 키워드 식별 요소는 “인명”, “지명”, “서명”, “연호” 등 고전 문헌 텍스트의 중요 내용 요소들이 시스템에 의해 기계적으로 식별될 수 있도록 하기 위한 장치이다. 두 번째, 주석문 처리 요소는 고전 문헌 텍스트에 필수적으로 수반되는 각종 주석문을 적절하게 관리하기 위한 것이다. 세 번째, 유관 자료 연계 요소는 고전 문헌 데이터베이스 내에서 내용적으로 연관성이 있는 텍스트들이 상호참조될 수 있도록 하는 기능을 지원한다. 마지막 시․공간 정보 요소는 고전 문헌 텍스트를 전자지도 및 전자연표 상의 데이터와 적정하게 연계시키는 방안을 제시하기 위해 제안하는 것이다.


(1) 키워드의 식별을 위한 요소


고전 문헌 자료의 본문 텍스트 속 어휘 중 특별히 의미 있는 정보 요소 역할을 하는 것의 대체적인 유형은 민족문화추진회에서 우리나라 고전 문집 자료의 색인어를 발굴하여 정리한『한국문집총간색인』24)을 통해 살펴 볼 수 있다. 『한국문집총간색인』은 한문 문장을 정확하게 읽어낼 수 있는 한학(漢學) 전문가들이『한국문집총간』텍스트를 직접 읽어 가면서, 그 안에 있는 의미 있는 어휘들을 추출해 놓은 것이다. 이것은 물론 문집 자료의 전자 텍스트화를 염두에 두고 시행한 작업은 아니지만, 문장 속에 묻힌 키워드를 명시화한 점에서 XML 문서 상의 요소 태깅과 동일한 의미를 지닌다고 할 수 있다. 필자는『한국문집총간색인』의 등재 어휘를 다음과 같이 분류해 보았다.


[표 4-1]『한국문집총간색인』등재 용어의 유형 분류25)

구분

범례

고유명사 관련성

인물

인명

 * 성명, 별호(자, 아호, 호, 시호, 봉호, 당호)

 * 왕의 호칭

 * 종실․의빈의 호칭

 * 왕비, 공주, 옹주의 호칭

 * 기생, 노비, 여자의 호칭

 * 혼합 호칭 또는 전성된 호칭 (‘성+관직명’, ‘지명+존칭’ 등)

전체적으로 고유명사이거나 고유명사를 포함

공간

지명

 * 일반지명 

 * 자연지명

 * 관향

 * 가상의 지명

 * 막연한 지명 (방위 등으로 특정 지역을 일컫는 경우)

 “

국명

 * 국명, 왕조명

 * 수식어가 붙은 국명

 “

건물명

 * 궁전의 명칭

 * 樓, 臺, 亭, 館, 院, 書院, 鄕校, 橋 등

 * ‘人名, 地名+廟, 祠’ 형태의 건축물명

시간

연호

 * 왕의 연호

간지,

절기,

월, 일

 * 연 간지

 * 절기명, 월의 이칭, 날의 이칭, 명절 및 날짜로 된 절기

일반명사

서명

서명,

작품명

 * 경전, 문집의 본서명과 이칭, 약칭

 * 판본명

 * 지명 + 錄, 誌

 * 중국고전의 편․장․괘명

 * 그림 이름 등의 작품명

고유명사와 같은 기능을 수행

용어,

사물

관직명,

관청명

 * 관직 관청의 공식명칭 및 이칭

 * 고사에 의거해 쓰인 명칭

 * 임시관청명

 * 사신 관계 용어

 * 공신호

관청의 이름, 특정 인물을 가키는 공신호는 고유명사로 볼 수 있음.

용어

 * 고사용어

 * 숫자용어(숫자와 함께 구성된 용어로서 관용적으로 쓰이는 것)

 * 제도, 세금 관련 용어

 * 과거 시험의 명칭

 * 제사이름이나 상례 용어

 * 성리학 관련 용어

 * 도가, 불교 관련 용어

 * 日蝕, 月蝕, 地震 등 특별한 자연이나 천문 현상을 나타내는 용어

 * 서적 간행 형식에 관련된 용어나 판본 및 간본에 관련된 용어

일반명사

사물

 * 수식어가 붙어 성어를 이룬 사물의 이름

 * 특정 사물에 대한 관용적인 이칭

 * 고사와 관련된 사물

 * 별 이름

별 이름은

고유명사


이 중에서 XML 요소화 대상으로 우선적으로 고려해야 할 것은 어떠한 것일까? 정보화 대상 자료의 성격에 따라 어휘의 중요도가 다르고, 그에 따라 키워드의 선정 기준도 달라질 것이기 때문에 “키워드 식별 요소”의 기준을 일반화할 수는 없다. 그러나 위에서 제시한『한국문집총간색인』의 유형 분류에서 보듯이, “고유명사”로 분류되는 인명, 지명, 서명, 연호 등이 고전 문헌 텍스트에서 중요한 의미소 역할을 담당한다는 사실은 누구에게 쉽게 승인될 수 있다. 필자는 이에 따라 고전 문헌 자료의 키워드 표기를 위한 기본적인 정보 요소로 이 네 가지를 사용할 것을 제안한다.26)

“고유명사의 표시”는 중국의『이십오사』를 비롯하여 그 체제를 모방한 한문문화권의 현대적인 한적 편찬에서 일반적으로 채용했던 것이기 때문에 전자문서의 편찬에 이를 적용하는 것도 크게 생소한 일은 아니다. 그러나 서책 편찬에서는 주로 어휘에 밑줄을 긋는 방식으로, 그것이 고유명사임을 알리는 역할만을 수행했으나 전자문서에서에서는 그 이상의 기능을 수행하게 할 수 있다. 그 고유명사의 유형이나 성격에 대한 부가적인 정보를 제공하고, 보다 상세한 내용을 담고 있는 유관 자료를 참조할 수 있도록 하는 기능을 병행하게 하는 것이다. 그와 같은 활용 기능의 확대는 해당 요소를 마크업 기호로 표시할 때, 몇 가지 속성 정보를 부가함으로써 가능해진다. 다음은 고유명사 엘리먼트와 그것에 부가할 수 있는 속성 정보의 종류를 예시한 것이다.


□ 고유명사 표기 요소


  a. <인명>: 인물 이름임을 표시

  b. <지명>: 지역 이름임을 표시

  c. <서명>: 서책․작품 등의 이름임을 표시

  d. <연호>: 연호 또는 재위년으로 표시되는 연대를 식별하는 기호


[표 4-2] 고유명사 표기를 위한 XML 요소 및 속성

요소

Element

속성 Attribute

비고

하위 요소

유형

식별자

인명

성명, 성, 명, 자, 호, 왕명, 봉작호, 시호, 승명, 여성인명,  외국인명 등을 구분

해당 요소의  대표명칭. 관련된 상세정보를 찾아갈 수 있는 유니크 키를 지정

식별자를 매개로 해당 고유명사와 관련된 대표 항목 연결

구조 요소: 없음

문중 요소: 없음

지명

국명, 지역명, 자연지명, 시설명, 유적명 외국지명 등을 구분

서명

서명, 편명, 문서, 작품명 등을 구분

연호

왕조를 구분


- 고유명사 표기 요소의 DTD

<!ENTITY % 인명유형 "성명|성|명|자|호|왕명|봉작|시호|승명|여성|외국“>

<!ENTITY % 지명유형 "국명|지역|자연|시설|유적|외국”>

<!ENTITY % 서명유형 "서명|편명|문서|작품“>

 

<!ELEMENT 인명 (#PCDATA)>

<!ATTLIST 인명

        유형 (%인명유형) #IMPLIED

        식별자 CDATA #IMPLIED>

 

<!ELEMENT 지명 (#PCDATA)>

<!ATTLIST 지명

        유형 (%지명유형) #IMPLIED

        식별자 CDATA #IMPLIED>

 

<!ELEMENT 서명 (#PCDATA)>

<!ATTLIST 서명

        유형 (%서명유형) #IMPLIED

        식별자 CDATA #IMPLIED>

 

<!ELEMENT 연호 (#PCDATA)>

<!ATTLIST 연호

        유형  CDATA #IMPLIED

        식별자 CDATA #IMPLIED>


위에서 제시한 4가지 종류의 고유명사 표기 요소와 속성은 필자가 관여한 고전 문헌 자료의 정보 사업27)에서 얻어진 데이터를 기반으로 구성한 것이다. 여기서는  고유명사 표기 요소가 하이퍼텍스트 구현 및 내용 기반 정보 검색 등의 발전된 기능을 수행하도록 하기 위한 장치로서 “유형”과 “식별자” 등의 2 가지 속성을 갖도록 하였다. 식별자는 해당 고유명사가 지시하는 대상을 유니크하게 식별할 수 있도록 하는 정보이다. 동명이인의 경우  요소 값이 같더라도 이 식별자가 다르기 때문에 구별될 수 있다.28) 반대로, 동일한 서책이 여러 가지 별칭으로 불리우더라도 이 식별자가 동일하면 한 종류의 서책인 것으로 간주된다.

“유형”은 요소 값으로 처리된 고유명사의 유형 또는 성격 분류라고 할 수 있다. 단 이 “유형” 속성은 해당 고유명사를 보편적인 분류 기준에 따라 분류하고자 하는 목적보다는 유용한 전자색인의 생성 및 기계적 정보 처리시의 모호성을 줄이기 위한 용도이다.29)

고전 문헌에 나타나는 고유명사의 경우, 어느것이 인명, 지명, 서명, 연호에 해당하는가 판단하는 것은 해당 텍스트의 내용을 이해할 수 있는 사람에게는 그렇게 어려운 일이 아니지만, 고유한 식별자를 부여하고 유형을 구분해 내는 것은 적지않은 시간투여가 필요하고 오류 발생의 여지도 많은 일이다.  고전 문헌에 등장하는 인명은 현대인명처럼 “성”+“명”의 일정한 형태를 갖기보다 자, 호, 시호, 봉작호 등으로 다양하며, 심지어는 “성+지명”, “성+관직명”, “성+신분”, “성+가족관계”, “지명+존칭”, “지명+신분”, “국명+묘호” 등 인명과 다른 요소가 혼합된 형태로 불리우는 경우도 적지 않다. 한국향토문화전자대전 사업이나 전근대인물종합정보시스템 개발 사업처럼 유관 정보의 정밀한 상호 연계 서비스를 목적으로 하는 경우가 아니라면 고유명사 요소의 유형 속성이나 식별자 속성의 관리는 신중하게 결정해야 한다.


(2) 주석문 또는 교열정보의 표시를 위한 요소


주석문의 표시는 고전 문헌 텍스트의 본문과 주석문을 구분하는 것을 목적으로 한다. 경서, 사서, 문집 류의 고전 문헌 텍스트 안에는 원문의 편찬자가 부가한 주석문이 병기되어 있는 경우가 많으며, 후대에 내려와 고전 문헌을 탈초, 교감, 교열하여 간행하는 경우에는 새로운 주석문을 부가하는 경우도 있다. 이러한 자료를 정보화할 때 원문과 주석문의 구분은 반드시 필요하다. 특히 고전 문헌을 전자 텍스트로 제작하는 목적 가운데에는 난해한 고전 문헌에 대해 지속적으로 교감 정보를 부가하여 정본 텍스트를 만들고자 하는 것도 있는데,30) 이 때의 부가 정보는 원문에 대한 주석문의 형태로 만들어지는 것이 일반적이다. 주석문의 표시의 효용성은 정보화한 결과물을 전자 매체 상에서 재현할 때 원문과 부가정보를 시각적으로 구분하여 보여 주거나, 양자의 관계를 알기 쉽게 표현하는 데에서뿐 아니라, 정보검색의 합리성을 높인다는 점에서도 찾을 수 있다. 예를 들어 원문에 특정 어휘가 몇 번이나 출현했는지를 조사하는 작업을 수행할 때 원문 속의 어휘와 주석문[편자주] 속의 어휘가 섞이게 되면 정확한 통계 결과를 산출할 수 없는데, 주석문을 정보 요소로서 구분해 주면 그러한 혼란을 방지할 수 있다.


□ 주석문 표기 요소


a. <원주>: 원문 속의 주석문임을 표시하는 기호

b. <편찬자주>: 편찬자가 부가한 주석문을 표시하는 기호

c. <교열>: 편찬자의 교열 내용을 표시


[표 4-3] 주석문 표기를 위한 XML 요소 및 속성

요소

Element

속성 Attribute

비고

하위 요소

형식

성격

원주

소자, 쌍행소자, 난외주 등 원주의 표시 형태

X

 

구조 요소: <대상>

<해설>

문중 요소: 가능

편자주

간주, 각주, 미주 등 편자주의 표시 형태

용어해설, 보충설명 등을 구분

 

구조 요소: <대상>

<해설>

문중 요소: 가능

교열

원문 표시, 교정문 표시, 병기 등

결문의 보충,

연문의 삭제,

오자 수정 등을 구분

 

구조 요소:

<원문>

<교정>

<해설>

문중 요소:  가능


- 주석문 표기 요소의 DTD

<!ENTITY % 원주형식 “소자|쌍행소자|난외주”>

<!ENTITY % 편자주형식 “간주|각주|미주”>

<!ENTITY % 교열형식 “원문|교정|병기”>

 

<!ELEMENT 원주 (대상, 해설)>

<!ATTLIST 원주

        형식 (%원주형식) #IMPLIED>

 

<!ELEMENT 편자주 (대상, 해설)>

<!ATTLIST 편자주

        형식 (%편자주형식) #IMPLIED

        성격 CDATA #IMPLIED>

 

<!ELEMENT 교열 (원문, 교정, 해설)>

<!ATTLIST 교열

        형식 (%교열형식) #IMPLIED

        성격 CDATA #IMPLIED>

 

<!ELEMENT 대상 (#PCDATA)>

<!ELEMENT 원문 (#PCDATA)>

<!ELEMENT 교정 (#PCDATA)>

<!ELEMENT 해설 (#PCDATA)>


주석문을 기술할 때, 그것을 본문 속에 바로 삽입하는 경우와, 그 주석이 본문의 어느 부분에 관한 것인지를 표시하는 경우가 있는데, 후자의 방법을 택할 때에는 하위 엘리먼트를 사용하여 중층 구조로 기술한다. <원주>와 <편자주>의 하위 요소는 주석문의 대상과 주석문의 내용을 담기 위한 것이며, <교열> 요소의 하위 요소는 교열 대상이 되는 원문의 본래 모습과 교열 후에 바뀐 내용 및 교열자의 부가적인 설명을 처리하기 위한 것이다. 원주든 편찬자주든 그것을 독자에게 보여줄 때 어떠한 모양(간주, 각주, 미주 형태 등)으로 표현할 것인가 하는 것은 스타일쉬트 상에서 정하면 되므로 그것을 XML 문서 속에 담을 필요는 없다. 그러나 한 자료 내에서 주석문을  몇 가지 다른 형태로 표현하고자 할 때에는 “형식” 속성을 통해 표현 형태를 지시하면 된다.


[예시 4-8] 원주, 편자주, 교열 정보의 복합적인 기입 예


- 원시 자료31)


- XML 문서

<편자주><대상>九天之論。天有九天。肇於≪離騷≫指九天而爲正。其後≪史司馬相如傳≫。有上暢九垓。<원주>垓。重也。</원주>≪郊祀歌≫。有九閡。<원주>閡。亦垓也。</원주>≪淮南子≫有九<교열 형식=“교정”><원문>垓</원문><교정>陔</교정><해설>‘垓’로 되어 있는데, ≪靑莊館全書≫에 근거하여 ‘陔’로 고쳤다.</해설></교열>之上。謂九天。<원주>陔。亦垓也。</원주> 然則九天之說。自古有明據。而但不詳傳其名數。<원주>≪淮南子≫所稱皞天、陽天等名。恐不當。≪太玄≫所謂中天、羨天、從天、更天、睟天、廓天、減天、沈天、成天。不得知其名義也。</원주></대상><해설>‘九天之論’부터‘不得詳知其名義也’까지는 李德懋 撰 ≪靑莊館全書 卷58·天九層≫에 보인다.</해설></편자주>


- 브라우저 상에서의 표시 형태


(3) 유관 정보의 상호참조를 위한 요소


전자문서의 가장 큰 장점은 유관 자료 사이의 상호참조가 실시간으로 이루어질 수 있다고 하는 점이다. 일반적으로 하이퍼텍스트(Hyper Text) 기능이라고 불리우는 이 기능은  WEB 문서가 보편적으로 추구하는 기능이며, 고전 문헌의 특이 요소는 아니다. 그러나 고전 문헌 상에서는 텍스트 본문 중에 문중 요소로 처리된 인명, 지명, 서명, 등의 키워드가 하이퍼텍스트 링크의 접목점(link resource) 역할을 하는 경우가 많으므로 이 기능의 구현 방법을 문중 요소 처리의 연장선상에서 다루어 보고자 한다.

유관 문서 연결의 출발점은 어느 경우에나 “문서 내용의 특정 부분”이다. 그러나 그 연결 대상은 ①같은 문서의 다른 부분일 수도 있고, ②다른 문서 전체일 수도 있으며, ③다른 문서의 특정 부분일 수도 있다.32) 연결 대상이 한 가지로 정해지지 않는 경우에는 그 대상의 목록을 제공하고, 이용자의 선택을 기다리는 방법을 제공할 수도 있다. 상호 참조를 위한 유관 문서 연결의 유형은 이처럼 여러 가지이지만, 이를 가능하게 하기 위한 XML 요소는 2 가지면 충분하다. 즉 연결의 출발점이 될 부분을 지정하는 것과 목적지가  될 부분을 지정하는 것이다.

<참조> 요소는 연계시키고자 하는 자료가 텍스트 문서가 아니라, 그림, 동영상 등 시청각 자료인 경우에도 적용할 수 있지만, 텍스트와 다른 매체 자료로의 연계를 요소 차원에서 구분하고자 한다면, <시청각> 등 새로운 이름의 요소를 정의할 수도 있을 것이다.


□ 연관성 표기 요소


  a. <참조>: 유관 자료에 대한 참조 고리를 제공

  b. <부출>: 본문의 내용 일부를 참조 대상으로 삼기 위한 표시33)

  c. <시청각>: 멀티미디어 자료에 대한 참조 고리를 제공


[표 4-4] 연관성 표기를 위한 XML 요소 및 속성

요소

Element

속성 Attribute

비고

하위 요소

영역

자원

표목

참조

외부문서,

내부문서,

자기문서 구분

- URN + 검색 가능 키워드 또는 문서 고유 식별자

- 내부문서의 경우 URN 생략

- 자기 문서의 경우 속성 생략

연결할 부분의 고유 명칭

“표목” 속성은 대상 문서의 일부 요소(<부출> 요소)를 제한적으로 참조할 때 사용.

구조 요소:

없음

문중 요소:

가능

시청각

외부매체,

내부매체 구분

X

 

구조 요소:

없음

문중 요소:

가능

부출

X

X

표시된 내용을 대표하는 고유 명칭

링크가 맺어진 <참조> 요소와 <부출> 요소의 “표목” 속성 값은 동일

구조 요소:

없음

문중 요소:

가능


- 연관성 표기 요소의 DTD

<!ENTITY % 참조영역 “외부|내부|자기”>

 

<!ELEMENT 참조 (#PCDATA)>

<!ATTLIST 참조

        영역 (%참조영역) #IMPLIED

        자원 CDATA #REQUIRED

        표목 CDATA #IMPLIED>

 

<!ELEMENT 시청각 (#PCDATA)>

<!ATTLIST 시청각

        영역 (%참조영역) #IMPLIED

      자원 CDATA #REQUIRED>

 

<!ELEMENT 부출 (#PCDATA)>

<!ATTLIST 부출

        표목 CDATA #REQUIRED>


<참조> 요소와 <시청각> 요소의 속성 값을 가지고 웹 시스템 상에서 유관 자료를 호출하는 기능적인 프로세스는 스타일쉬트 상에서 구현하게 된다.

향후 XML 문서의  상호 참조는 이에 관한 W3C의 권고안인 XLINK 표준을 따라갈 것이다. 그러나 현 시점에서 일반인들이 사용하고 있는 웹 브라우저는 아직 XLINK 개념을 지원하지 않으므로 필자는 고전 문헌을 위한 상호 참조 요소를 설계함에 있서 XLINK 요소와 예약된 속성을 직접 사용하지는 않았다.   출발점과 목적지 사이의 링크를 단방향이 아닌 쌍방향으로 하고자 할 경우 다소 번거롭기는 하지만 <참조> 요소와 <부출> 요소를 중첩해서 기술할 것을 제안한다.


(4) 시․공간적 정보 처리를 위한 요소


최근의 고전 자료 정보 처리는 단순히 고전 문헌의 문자 정보를 입력하고 검색하는 수준에서 탈피하여 텍스트의 내용과 관련된 시․공간적 정보를 전자지도 및 전자연표의 형태로 제공하는 수준으로 발전하고 있다.  그러나 그와 같은 고기능의 정보 시스템을 구현하는 방법이 개발자에 따라 상이하게 만들어지는 응용 프로그램의 특수한 사양에 의존하고 있기 때문에 구축된 자원의 재활용이나 시스템 간의 상호운영성이 확보되지 못하고 있다. 전자지도나 전자연표의 용도는 원시 자료의 성격에 따라 다양하겠지만, 고전 문헌의 자료적 특성에 입각하여 볼 때, 전자지도는 주로 텍스트 상의 <지명> 요소와 관련한 참조데이터로 제공되는 경우가 많고, 전자연표는 <인명> 요소나 <서명> 요소, 또는 전쟁, 운동, 사건 등 역사적 사실의 기술과 연계하여 제공되게 된다. 따라서 전자연표나 전자지도를 제공하는 응용 프로그램의 기능이 어떠하든, 고전 문헌 데이터상에서 그러한 응용 기능을 호출하는 하는 요소의 정의가 일정한 표준을 따른다고 한다면, 자원의 재활용과 상호 운영을 충분히 기대할 수 있다.

필자가 제안하는 고전 문헌 자료의 시․공간적 연계를 위한 정보 관리 기술의 요체는 전자지도 또는 전자연표의 제작과정에서 그 내용 요소들을 명시적으로 드러내는 일종의 등기부(registry)를 표준화된 스펙에 따라 구축하고, 고전문헌 자료 상에서는 그 등기부에 등록된 요소를 고유한 이름으로 호출할 수 있도록 한다는 것이다. 전자지도 및 전자연표 레지스트리의 형식과 구현 방안 및 그것의 발전적인 활용 방안은 별도의 연구에서 다루었으므로34) 본 논문에서는 레지스트리의 구축을 전제로 하여, 그것을 매개로 한 고전 문헌 텍스트와 전자지도/전자연표 간의 연계를 위한 XML 요소 설계 방법만을 제시하기로 한다.


□ 시․공간 정보 표기 요소


- 지리적 공간 및 연대기적 시간에 관련된 정보로서 전자지도 및 전자연표로의 접근점 역할을 하는 정보 요소를 표시


  a. <공간>: 지리적 공간에 관련된 정보임을 표시

  b. <시간>: 연대기적 시간에 관련된 정보임을 표시


[표 4-5] 시․공간 정보 표기를 위한 XML 요소 및 속성

요소

Element

속성 Attribute

비고

하위 요소

유형

식별자

공간

해당 공간이 무엇에 관련된 것인가: 인물,기관,문헌,작품,사건,제도,행사,시대

공간 정보 레지스트리에 등록된 공간 개체의 고유한 이름

- 식별자를 매개로 공간정보 레지스트리 연결

- 유형 값에 의해 표시 아이콘 형태 지정

구조 요소:

없음

문중 요소:

가능

시간

해당 시간이 무엇에 관련된 것인가: 인물,기관,시설,유적,자연,특산,풍속,지역

시간 정보 레지스트리에 등록된 시간 개체의 고유한 이름

- 식별자를 매개로 시간정보 레지스트리 연결

- 유형 값에 의해 표시 아이콘 형태 지정

구조 요소:

없음

문중 요소:

가능


- 시공간 정보 표기 요소의 DTD

<!ENTITY % 공간유형 "인물|기관|문헌|작품|사건|제도|행사|시대“>

<!ENTITY % 시간유형 "인물|기관|시설|유적|자연|특산|풍속|지역“>

 

<!ELEMENT 공간 (#PCDATA)>

<!ATTLIST 공간

        유형 (%공간유형) #IMPLIED

        식별자 CDATA #REQUIRED>

 

<!ELEMENT 시간 (#PCDATA)>

<!ATTLIST 시간

        유형 (%시간유형) #IMPLIED

        식별자 CDATA #REQUIRED>


위에서 제시한  <공간> 및 시간 <요소>는  앞에서 다룬 고유명사 표기 요소와 마찬가지로 “유형”과 “식별자”라고 하는 두 가지 속성만을 갖는 단순한 구조이다. 하지만 이러한  구조만으로도  GIS 기반의  전자지도 및 전자연표 시스템과 정밀하게 연결될 수 있는 것은  텍스트와 GIS의 중간에 양자를 매개하는 시․공간정보 레지스트리가 자리하기 때문이다.  고전 문헌 텍스트의 XML 태깅을 담당하는 전자문서 편찬자가 알아야 할 것은 그 레지스트리 상에 등록된 시공간 요소의 고유한 이름(식별자)뿐이다.35)  이 식별자와 함께 시공간 요소의 속성으로 부여하는 “유형” 값은 전자지도나 전자연표상에 유관 정보를  표시할 때,  그 정보의 성격을 표상하는 아이콘의 모양을 정하는 데 유용하게 쓰일 수 있다.

<공간> 요소와 <시간> 요소는 문헌 자료의 원시 텍스트에 바로 부가될 수도 있지만, 앞서 설명한 고유명사 표기 요소나 연관성 표기 요소와 중첩해서 쓰이기도 한다. 다음은 시공간 요소의 기입 예시이다.


[예시 4-9] 공간, 시간 요소 및 고유명사 표기 요소의 복합적인 기입 예

<공간 유형=“유적” 식별자=“청주|충렬사”><지명>충렬사(忠烈祠)</지명></공간>는 <시간 유형=“사건” 식별자=“임진왜란”>임진왜란</시간> 때 순절한 동래부사 <시간 유형=“인물” 식별자=“송상현생몰년”><인명>송상현(宋象賢)</인명>의 위패를 모신 사당이다.

<공간 유형=“유적” 식별자=“강정일당 묘소”><인명>강정일당(姜靜一堂)</인명>의 묘</공간>는 <지명>성남시</지명> <지명> 금토동</지명>에  있다.</공간>


위와 같이 시공간 요소가 삽입된 전자 XML 텍스트를 정보 시스템 상에서 재현할 때 이용자는  “충렬사”나 “강정일당의 묘” 등의 키워드로부터 그 사물의 소재를 시각적으로 보여 주는 전자지도를 링크할 수 있으며, 마찬가지 방법으로 “송상현”, “강정일당”이라고 하는 인명으로부터 그 인물의 생몰년이 표시된 전자연표를 호출할 수 있다.

XML 전자문서를 기반으로 하는 하이퍼 미디어 정보 시스템 상에서는 고유명사 표기 요소와 연관성 요소, 시․공간 요소가 함께 사용되어 유관 자료의 상호 연계를 구현하게 된다. 다음은 한국학중앙연구원의 향토문화전자대전 시스템 상에서 보여지는 문중 요소의 종합적 활용 사례이다.


[예시 4-10] 문중 요소를 활용한 하이퍼 미디어 시스템 구현 사례


 - XML 문서

<참조 영역=“내부” 자원=“남한산성”><시청각 영역=“내부” 자원=”남한산성“><공간 유형=“유적” 식별자=“남한산성 전역”><지명 유형=“유적”>남한산성</지명></공간></시청각></참조>은 <지명 유형=“유적”>북한산성</지명>과 함께 도성을 지키던 남부의 산성으로, 1636년 <시간 유형=“사건” 식별자=“병자호란 발생”>병자호란</시간> 당시 <인명 유형=“왕명”>인조</인명>가 45일간 항전하던 곳이다.


- 본문의 화면 표시 및 하이퍼 텍스트 링킹


Ⅴ. 맺음말


고전 문헌의 정보화 분야에서 XML과 같은 전자 문서 편찬 기술에 주목해야 하는 이유는 그것이 정보 시스템의 상호운영성을 보장하는 표준화된 데이터 형식이라는 점 이외에도, 고전 문헌을 다루는 인문과학 분야의 연구 편찬자와 시스템 개발의 실무를 담당하는 정보 기술 전문가 사이의 의사 소통을 원활하게 하는 가교 역할을 할 수 있다고 하는 점이다.

  역사적 지식을 가지고 고전 문헌을 읽어낼 수 있는 인문학도가 직접 고기능의 정보시스템을 개발하는 것이 어려운 일이듯이, 프로그래밍 언어를 자유롭게 구사할 수 있는 정보기술자가 혼자의 힘으로 한문 투성이의 고전 문헌 자료를 합리적으로 정보화 하는 것도 기대할 수 없는 일이다. 고전 문헌의 정보화 사업 분야에 막대한 공공 재원이 투입되고 있는데도 기능과 내용 면에서 만족할 만하고, 활용 성과가 높은 정보 시스템을 찾아보기 어려운 이유는 콘텐트에 대한 지식과 플렛폼에 대한 기술이 서로 유리된 채 접목점을 찾지 못했기 때문이라고 할 수 있다.

  상호 이해가 부족한 두 집단 사이의 협업을 가능하게 만드는 최선의 방법은 양자 모두가 분명하게 이해할 수 있는 매개적 존재의 형태를 약속하고, 그것을 중심으로 각자의 역할을 분담하는 것이다.  XML은 고전 지식과 정보 기술 사이에서 그와 같은 매개자의 역할을 할 수 있다. 이때, 고전 문헌 원시 자료를 기계가독적인 전자 텍스트로 만드는 데까지는 인문학도들이 그 책임을 맡아야 한다. 전자화된 고전 지식이 인터넷을 통해 세계로 소통될 수 있도록 하는 것은 정보기술자들이 충분히 지원할 수 있는 일이다.

  필자는 이러한 관점에서 고전 지식의 생산과 소통의 책임이 있는 인문학도들이 용이하게 운용할 수 있는 전자 문서 편찬 방법을 강구하고자 하였다. 원시 자료 형태의 고전 문헌 자료의 정보화를 송두리째 프로그래머의 손에 맡기는 것이 아니라, 그 자료 내용의 논리적 구조의 어떠하고 그 속에서 중요한 의미를 갖는 요소는 무엇인지를 명시적으로 드러낸 상태에서 그것의 효과적인 관리와 서비스의 장치가 기술 분야에서 마련하도록 하자는 것이다.

  그와 같은 취지에서 필자가 본 논문의 본론에서 다룬 두 가지 중심 주제는 첫째, 데이터베이스화 과정에서 원시 자료의 논리적 체계가 왜곡되지 않도록 하는 목표지향적 XML의 설계 방법이었고, 두 번째는 본문 텍스트에 혼재된 정보 요소들이 기계적으로 식별되고 활용될 수 있도록 하는 문중 요소(In-Text Mark-up Element)의 처리 방법이었다. 기본적으로 이 두 가지 문제에 대한 합리적 처리 방안이 마련되면 전자 텍스트의 편찬 책임을 맡은 인문학도들의 작업결과가 모호성의 여지를 최소화 한 상태에서 시스템 개발자에게 인계될 수 있게 된다. 결과적으로 고전 분야의 종사자와 정보 기술 분야의 전문가가 상대방의 전문 영역을 완전히 이해하지 않은 상황에서도 고전 문헌 정보 시스템이라는 학제적 성과물의 질적 수준을 신장시키는 길이 열리게 될 것이다.

  고전 문헌 자료의 전자문서 형식은 그 문헌의 성격 뿐 아니라 활용 목적에 따라 달리 정의될 수 있기 때문에 일반적 적용이 가능한 표준안을 확정하는 것은 불가능하다. 필자가 본 논문을 통해 제시한 몇 가지 제안은 고전 문헌 자료의 전자문서 형식 전반에 대한 것이 아니며, 비교적 많은 종류의 고전 문헌에서 공통적으로 쓰일 만한 요소들을 부분적으로 탐구한 것이다. 그 이상의 구체적인 논의는 대상 자료와 활용 목적이 확립된 정보화 사업 현장에서 이루어져야 할 것으로 생각하며, 필자 역시 발전적인 후속 연구를 개별 자료의 실제적인 전자문서화 작업을 통해 수행할 예정이다.


○ 투고일: 2006년 6월 10일.  ○ 심사완료일: 2006년  월   일.

참고문헌


김  현, 「한국 고전적 전산화의 발전 방향 - 고전 문집 지식 정보 시스템 개발 전략 -」(『민족문화』 28집, 민족문화추진회, 2005. 12. )

   , 「한국학과 정보기술의 학제적 교육 프로그램 개발에 관한 연구」(『民族文化硏究』제43호,  고려대학교 민족문화연구원, 2005. 12. )

   , Historical Information Systems Administered by Korean Public Sector (『The Review of Korean Studies』Vol 8. No. 4,  The Academy of Korean Studies, 2005. 12. )

   , 「전자문화지도 개발을 위한 정보 편찬 기술」(『인문콘텐츠』제4호, 인문콘텐츠학회,  2004. 12. )

   , 「韓國古典籍 전산화의 성과와 과제」(『民族文化』18집, 민족문화추진회, 1995. 12. )

이상용, 「한국 문집을 위한 XML DTD 개발에 대한 연구」 (『서지학연구』 25, 서지학회, 2003)

   , 「XML을 활용한 고문헌의 원문디지털화 방안에 대한 연구」(『한국문헌정보학회지』37-1, 한국문헌정보관리학회, 2003)

안병학, 정우봉, 정출헌, 「한국 고전문헌 데이터베이스의 설계·구축 및 응용 방안 연구」(『民族文化硏究』34, 고려대학교 민족문화연구원, 2001)

이종철, 「多言語 불교 하이퍼텍스트 구축의 사례 연구」(『電子佛典』 2, 동국대학교 전자불전연구소, 2000)

정회경, 「차세대 웹 문서 표준 XML」(『정보처리학회지』 6-3, 한국정보처리학회, 1999)

강범모. 장효현. 윤재민, 『한국학 문헌의 전산화를 위한 TEI 표준 응용 및 확장 방안 연구』, 고려대학교 민족문화연구원, 1998

정보통신부, 「2006년도 지식정보자원관리사업 시행 계획」, 2006. 2

   , 「2005년도 지식정보자원관리사업 시행 계획」, 2005. 1

한국과학기술정보연구원, KRISTAL 2002 Programmer's Manual, 2005

Scott Klein, Professional SQL Server 2005 XML, Wiley Publishing, 2006


[인터넷 자원]

국사편찬위원회,『승정원일기』, http://sjw.history.or.kr

민족문화추진회,『한국문집총간』, http://www.minchu.or.kr

   ,『난해원전교감정리사업: 『五洲衍文長箋散稿』,  http://oju.minchu.or.kr

한국학중앙연구원,『한국향토문화전자대전』, http://www.grandculture.net



Abstract


   A Study on Electronic Document Compilation Technology for Digitalization of Korean Historical Documents



Kim, Hyeon

This study is purported for developing electronic document compilation methodology which enables historical document researchers to effectively apply their data analysis effort to electronic data management and information retrieval service. And this paper includes the research results as follows:

- Current state of XML application in historical document digitalization area:

Investigated the XML related technology which was applied to the major historical document digitalization projects in Korea, and drew the technical issues to enhance the productivity and manageability of historical document databases.

- Method for implementing structural constitution of fundamental storage units:

Analyzed the characteristics of document-centric XML and the structural features of historical documents; and based on this survey, presented a   XML document designing model which prevents the logical structure of a historical document from being distorted in the course of database construction.

- Method for digitalization of information elements contained in a fundamental storage unit:

Suggested a data process method which enables the in-text elements (=information elements which are mixed with character data) to be mechanically recognized and utilized, when they are processed in a XML enabled database.


Keyword : XML, Computerization of Historical Documents, Electronic Document Compilation,  Database, Genealogical Data Model, In-Text Element

요약


이 연구는 고문헌 자료 정보화를 위한 고전 분야 전문가의 자료 분석 노력이 데이터의 입력 단계뿐 아니라 정보 관리 및 정보 검색 서비스 차원에서도 실효성 있게 반영되도록 하는 전자적 문서 편찬 방법론을 제시하는 것을 목적으로 하였으며, 다음과 같은 내용의 연구 성과를 산출하였다.

- 고문헌 정보화 분야의 XML 활용 현황: 우리나라 고문헌 정보화 분야 사업에서 도입․적용되고 있는 XML 관련 기술의 현황과 문제점을 조사․분석하고, 고문헌 데이터베이스의 생산․관리를 효율화하기 위한 과제를 도출하였다.

- 기본 저장 단위의 구조화 방안: 문서 중심적 XML의 특징과 고전 문헌 자료의 구조적 특성을 분석하고, 이를 기반으로 계층 구조 고문헌 원시 자료의 논리적 체계가 데이터베이스화 과정에서 왜곡되지 않도록 하는 XML 문서의 설계 모델을 제시하였다.

- 기본 저장 단위 내부 요소의 정보화: XML Enabled Database 상에서 본문 텍스트에 혼재된 정보 요소들이 기계적으로 식별되고 활용될 수 있도록 하는 문중 요소(In-Text Mark-up Element)의 처리 방법을 제시하였다.


주제어 : 고전 문헌 정보화, 전자문서 편찬, 데이터베이스, 계보형 모델, 문중 요소 처리


 * 이 연구는 2005년 한국학중앙연구원 연구과제로 수행되었음.


** 한국학중앙연구원 고문헌관리학과 교수, 인문정보학


 1) 이 연구에서는 “고문헌”이라는 용어에 대해 시간적 범위를 제한하지 않고 고대에서 근현대까지 생산된 과거의 기록 중 역사적 기록물(historical documents)로 간주되는 각종 문헌 자료를 포괄적으로 지칭하는 말로 쓰고자 한다. 또한 본 논문에서 다루는 고문헌의 정보화는 그와 같은 역사적 기록물의 원문 또는 목록의 디지털화를 주로 의미하지만, 고문헌 자료를 현대어로 번역한 고전 국역 데이터의 정보화나 고문헌을 대상으로 한 2차적 연구편찬물의 정보화도 이에 포함될 수 있는 것으로 한다.


 2) 1999-2006 지식자원관리사업 투입 예산규모

연도

1999

2000

2001

2002

2003

2004

2005

2006

연평균

사업비

(억원)

500

342

328

275

470

470

664

430

435

   (한국정보문화진흥원, 「지식자원관리사업소개」, 2006. 5)


 3) 2005년도 및 2006년도 지식정보자원관리사업 중 역사 및 고전 문헌 관련 데이터베이스 구축 사업

□ 2005년 사업

 

 

사업명

주관기관

사업예산

(억원)

한국역사정보통합시스템

국사편찬위원회

19

고전국역총서 및 한국문집총간

재단법인 민족문화추진회

15

장서각 소장 국학 자료 전산화 작업

한국학중앙연구원

15

한국 전근대 인물정보시스템 개발

한국학중앙연구원

4

한국학 고전원문 디지털화사업

서울대학교 규장각

10

유교문화종합정보

한국국학진흥원

11

지식정보기반 유교문화권 체험 관광서비스

한국국학진흥원

10

한국경학자료와 족보 DB구축

성균관대학교 존경각

8

남명학 관련 고문헌

경상대학교 도서관

7

민주화운동 사료 DB구축

민주화운동기념사업회

7

한국관련 서양고서 원문 DB구축

명지대학교 국제한국학연구소

8

독립운동관련 기록물 DB 구축

국가보훈처

10

한국독립운동사 종합지식정보시스템 구축

독립기념관

12

한국여성사 지식정보자원 구축사업

한국여성개발원

6

한국 고전적 종합DB 시스템 구축

국립중앙도서관

8

근대법령 지식정보DB구축 사업

법제처

7

국가지정 중요전적문화재 원문 DB구축

문화재청

27

국가문화유산 종합정보시스템 구축

문화관광부

21

한의학 지식정보자원 디지털화 사업

한국한의학연구원

6

사업비 합계 금액

205

   (정보통신부, 「2005년도 지식정보자원관리사업 시행 계획」, 2005. 1)

□ 2006년 사업

 

 

사업명

주관기관

사업예산

(백만원)

한국역사정보통합시스템 

국사편찬위원회

1,265

고전국역총서 및 한국문집총간

재단법인 민족문화추진회

1,038

장서각소장 국학자료 전산화사업

한국학중앙연구원

640

한국학 고전원문 디지털화 사업

서울대학교 규장각

680

유교문화권 기록자료 DB 및 역사체험 콘텐츠 구축

한국국학진흥원

1,258

한국경학자료 및 족보 DB구축 사업

성균관대학교 존경각

712

한국관련 서양고서 원문 DB구축사업

명지대학교 국제한국학연구소

590

한국독립운동사 종합지식정보시스템구축

독립기념관

985

한국고전적종합목록시스템구축

국립중앙도서관

502

국가지정 및 해외소재 중요전적문화재 원문DB

문화재청

1,105

불교문화종합 DB구축 사업

동국대학교 중앙도서관

579

고려대장경지식베이스 구축사업

(사)장경도량고려대장경연구소

647

호남지역 고문서 디지털화 사업

전북대학교 박물관

634

한민족 문화유산 e-클러스터

문화관광부

1,112

사업비 합계 금액

10,635

   (정보통신부, 「2006년도 지식정보자원관리사업 시행 계획」, 2006. 2)


 4) 고전 문헌 자료의 디지털 편찬 방법에 관한 국내의 주요 연구 성과는 다음과 같다.

    - 이상용, 「한국 문집을 위한 XML DTD 개발에 대한 연구」 (『서지학연구』 25, 서지학회, 2003).

    - 이상용, 「XML을 활용한 고문헌의 원문 디지털화 방안에 대한 연구」(『한국문헌정보학회지』 37-1, 한국문헌정보관리학회, 2003).

    - 안병학, 정우봉, 정출헌, 「한국 고전문헌 데이터베이스의 설계·구축 및 응용 방안 연구」(『民族文化硏究』 34, 고려대학교 민족문화연구원, 2001).

    - 강범모. 장효현. 윤재민,『한국학 문헌의 전산화를 위한 TEI 표준한 응용 및 확장 방안 연구』, 고려대학교 민족문화연구원, 1998.

    - 김현, 「조선왕조실록 전산화(電算化)를 위한 마크업(MarkUp) 규칙」 (『古文硏究』 9, 한국고문연구회, 1996).


 5) XML(eXtensible Mark-up Language): 문서의 구조적인 형식과 내용 요소들이 컴퓨터가 식별할 수 있는 명시적 정보로 기술될 수 있도록 하기 위한 전자문서 마크업 언어이다. W3C(World Wide Web Consortium)는 1998년 최초의 권장안을 제시하였으며, 최근에 이르기까지 여러 단계의 개선안과 함께 다양한 응용 기술의 표준화 방안을 제공하고 있다.


 6) 데이터베이스 관리 시스템의 모델은 2차원 테이블의 집합으로 구성되는 이른바 “관계형 데이터베이스” 시스템 이외에도 데이터 요소 사이의 계층적 연관 관계를 정보화하는 데 유효한 “계층형 데이터베이스” 데이터 요소간의 자유로운 수평적 연관 관계를 구현하는 데 적합한 “네트워크형 데이터베이스” 등 다양하나, 현실적으로 널리 보급되며 영향력을 발휘하고 있는 것은 “관계형 데이터베이스” 1종이다. 그 주된 이유는 관계형 데이터베이가 지향하는 자료 구조의 단순성 때문이다. 열과 행으로 이루어진 2차원 테이블은 컴퓨터 시스템이 도입되기 이전부터 지식과 정보를 체계적으로 정리하는 유효한 방법으로 쓰여져 왔다.  정보 전산화를 위해 자료구조론을  공부한 바 없는 일반인들에게도 그 방법은 쉽게 이해될 수 있었고, 또 그 방법을 지원하는 전자적 도구들 - 관계형 DBMS와 스프레드 쉬트 - 이 누구나 용이하게 구득할 수 있는 상품으로 개발되었기 때문에 “데이터베이스 개발”이라고 하면 곧 “관계형 데이터베이스의 개발”을 연상할 정도로 이 방법이 일반화되었다.


 7) 우리나라의 고전 문헌의 데이터베이스 개발 사업에서 본격적으로 XML 응용 기술이 도입된 것은 한국과학기술정보연구원에서 개발한 일종의 XML Enabled Database, KRISTAL 2002™를 인문과학 분야의 연구 기관들이 사용하게 된 2004년부터였다고 할 수 있다. KRISTAL 2002™는 XML 문서로 만들어진 데이터가 데이터베이스 안에서도 그 문서 형식을 그대로 유지할 수 있게 하고,  웹 브라우저를 통해 이용자에게 제공될 때에도  XML 문서로 보여지도록 하는 기능을 지원한다. 이와 같은 데이터베이스 개발 도구가 마련됨으로써 고전 문헌 분야의 정보 자원들이 그 고유의 구조적, 형식적 특성에 적합한 전자 정보로 만들어질 수 있는 길이 열리게 되었다. 그러나  아직까지는 이 분야 개발 조직 사이에서 XML 응용 기술이 일반화되지 못하여 XML 자료의 특성을 충분히 반영한 데이터베이스 개발 성과물은 매우 드문 실정이다.


 8) 데이터베이스 관리 시스템(Database Management System)과 정보 검색 시스템(Information Retrieval System)은 두 가지 독립적인 소프트웨어로서 응용 프로그램을 통해 서로 연동하거나, 두 기능을 융합한 하나의 소프트웨어로 존재한다. 이러한 소프트웨어는 데이터의 양이 방대할 경우 그것의 저장과 수정을 용이하게 하고, 특정 항목에 대한 색인을 자동으로 산출하여 검색을 가능하게 하며, 특정 조건에 부합하는 자료의 양을 알려 줌으로써 통계적 분석을 가능하게 해 주는 등의 기능을 지원한다.


 9) 고전 문헌 정보화 사업에서의 XML 활용은 대부분 원시 데이터를 관계형 DBMS에 적재하기 위해 임시적인 입력 형식(Loading Form)으로 활용하는 것이다. 이것은 항구적으로 관리되는 XML 문서를 생산하는 것이 아니라, 관계형 데이터베이스를 위한 Batch Loding Data를 만드는 과정에서 테이블의 행(Row)과 열(Row)에 담을 정보의 식별자로 XML 요소 형태의 기호를 쓴 것이라고 할 수 있다. 이 경우, 데이터의 DBMS 적재 이후 관계형 테이블의 데이터만 남고, 원시 XML 데이터는 더 이상의 용도가 없어서 소멸되어 버리게 된다.


10) 이러한 요구 조건에 대응할 수 있도록, 처음부터 XML 문서의 정보화를 위해 만들어진 데이터베이스 제품을 Native XML Database라고 한다. 이에 반해 기존의 DBMS나 IRS의 기능을 유지하면서 XML 데이터의 처리 기능을 부가한 제품을  XML Enabled Database라고 한다. 대표적인 Native XML Database 제품으로는 Software AG사의 Tamino, X-Hive사의 X-Hive/DB 등이 있지만 우리나라에서는 아직까지 실용화 되고 있지 않다. 대표적인 XML Enabled Database 제품으로는 Oracle사의 Oracle 9i 이상, MicroSoft사의 MS SQL 2005 등을 들 수 있다. 필자가 우리나라의 고전 문헌 데이터베이스 개발 기관의 XML 도입 수준을 살펴 본 바에 의하면, 이들 XML Enabled DBMS 제품을 보유한 기관도 아직까지는 XML 데이터 처리 기능을 활용(XML Data Type, XML Data Type Method 적용 등)하지 않고 있었으며, 다만, IRS(정보 검색 시스템)로서 XML Enabled Database 기능을 부분적으로 보유하고 있는 KRISTAL을 사용하는 경우에만 시스템에서 지원하는 XML 데이터 처리 기능을 활용하는 것으로 조사되었다.


11) XML 데이터의 정보화를 위해 Native XML Database의 도입이 필수적인가, 아니면 기존의 DBMS나 IRS에 XML 문서 처리 기능을 보완한 XML Enabled Database이 활용이 효율적인가에 대한 답안은 정해져 있지 않으며, 그 데이터베이스에 담을 자료의 성격과 활용 목적에 따라 선택을 달리할 수밖에 없다. 필자는 우리나라의 고문헌 정보화 분야에서 당분간 Native XML Database의 도입이 어려울 것으로 보는데, 그 이유는 고문헌 정보 데이터베이스의 개발의 실무를 담당하는 역사 정보 전문 IT 사업체의 XML 관련 기술력이 아직까지 초보적인 단계에 머물고 있으며,  Native XML Database에 대한 어떠한 경험도 축적하고 있지 못하기 때문이다. 더구나 현재 이 분야에서 쓰이는 데이터베이스 관리 도구인 Oracle이나 KRISTAL의 응용 프로그램 개발 인력마저 부족한 상황이기 때문에 새로운 개념의 실험적 도구를 개발 실무에 적용하는 것은 당분가 어려울 것이다. 한편, Native XML Database의 도입은 그렇게 시급한 문제라고 하지 않을 수도 있는데, 그것은 우리나라의 고문헌 자료 전산화가 아직까지 종이 매체 자료를 전자 매체로 옮기는 데 역점을 두고 있으며, 자료 내의 정보 요소에 대한 치밀한 구조 분석을 가할 만한 여력을 가지고 있지 않기 때문이다. 따라서 이 문제와 관련한 현실성 있는 대안은 이제 초보적 활용 단계에 있는 XML Enabled Database의 효과적 사용 방안을 찾음으로써 현재 만들어 가고 있는 데이터베이스의 제작 효율과 그 성과물의 질적 수준을 높여 가는 것이다.


12) 고전 문헌 자료의 경우, 원시 자료 자체가 일정한 정형성을 갖고 있는 “과거 급제자 명부” 등은 데이터 중심적인 XML의 소재가 된다고 할 수 있다. 그밖의 대부분의 고도서, 고문서 데이터는 문서 중심적 XML로 만들어지게 될 것이다.


13) 도서 목록 XML 문서를 데이터베이스에 담는 경우, <저자>, <서명>, <출판사항>, <판차사항> 등 각각의 도서에 대해 반복적으로 기술되는 정형 요소의 집합이 데이터베이스 상의 한 레코드를 이룬다.


14)『승정원일기』는 조선시대 승정원에서 왕명 출납, 제반 행정 사무, 각종 의례에 대한 사항을 일기 형식으로 기록한 문헌이다. 인조 원년(1577)부터 융희 4년(1910)까지 288년간의 기록이  총 3,047책에 수록되어 있다.『승정원일기』 정보화 사업은 국사편찬위원회[탈초 한문 텍스트 DB], 규장각[초서 원문 화상 이미지 DB], 민족문화추진회[국역문 텍스트 DB] 등 3개 기관에 의해 수행되고 있다.


15)『한국문집총간』은 우리나라의 대표적인 역대 문집 663종의 영인 출판물로서, 민족문화추진회에서 1988년부터 2005년까지 총 350 책으로 간행하였다. 이 자료의 정보화 사업 역시 민족문화추진회에서 수행하고 있으며, 2005년 말 현재 250책 분의 문집 기사 콘텐트를 데이터베이스로 구축하였다.


16) 전자문서 편찬에서 의미하는 “명시성”(clearness)은 사람이 육안으로 식별하기 쉬운 명시성만을 의미하는 것이 아니라 컴퓨터가 기계적으로 그 구조를 파악할 수 있게 하는 “기계적 가독성” (machine readability)을 의미한다.


17) Record: 프로그램에 의해 처리되기 위해 정렬된 데이터 항목의 집합. 관계형 데이터베이스에서는 Tuple 또는 Row라고도 하며, 객체지향 데이터베이스에서는 Object라고 한다.


18) KRISTAL과 같이 계층형 자료 구조를 지원하는 관리 도구는 원시 XML 문서를 적재하는 과정에서 개체 간의 형제 부모 관계를 조사하여 계층적 트리를 자동적으로 생산해 주는 기능을 지원한다. 만일 그러한 기능이 엔진 레벨에서 지원되지 않는 관계형 DB를 사용하는 경우라면, 별도의 데이터베이스 적재용 응용 프로그램 상에서 개체간 관계 부여를 해 주어야 할 것이다.


19) XML 문서상의 정보를 관계형 데이터베이스 적재하는 방법은 XML 문서의 요소를 한 테이블의 열(Column)에 매핑하는 방법(단일 테이블 기반 매핑, 또는 단순 매핑)과 몇 개의 중심 요소들의 계층 관계에 따라 그에 상응하는 수의 테이블을 설계하고 그 하위 요소들을 각각의 테이블 열에 매핑하는 방법(다중 테이블 기반 매핑,  또는 관계 기반 매핑) 등이 있는데, 어느 것이나 데이터 중심적 XML은 어느 정도 수용할 수 있지만 문서 중심적 XML의 요소, 특히 혼합 요소 내의 하위 요소들은 정보화 할 수 없다. 후자를 위해서는 XML 문서 처리를 목적으로 만들어진 Native XML Database나  XML Enabled Database를 사용해야 한다.


20) KRISTAL 2002는 기본 저장 단위로 구획된 XML 문서 내의 데이터를 분석하여[parse] 그 속에 포함된 하위 요소를 자동으로 추출하고, 이를 별도의 정보로 저장․색인한다. 단, Native XML Database가 단위 XML 문서의 하위 요소들을 완전히 분석하여 그 전체를 DOM(Document Object Model) Tree 형태로 관리하는 데 반해, KRISTAL은 관리자가 사전에 지정한 요소만을 분석할 수 있다. 이 점에서 KRISTAL의 XML 지원 기능도 상당히 제한적이라고 할 수 있지만, 고전 문헌 자료의 정보화는 아직까지 복잡한 요소 관계를 요구하지 않기 때문에 이 분야의 XML 혼합 요소 처리는 현재의 KRISTAL의 기능 정도로도 충분히 대응할 수 있을 것으로 판단된다.


21) W3C의 XML 표준안이나 XML 관련 기술서 중에 혼합 요소의 하위 요소, 즉 PCDATA와 혼재하는 엘리먼트에 특별한 명칭을 부여한 예는 없는 것으로 보인다. 그러나 고전 문헌 자료의 정보화에 필수적인 이 요소들은 여러 가지 면에서 일반적인 XML 엘리먼트들과 다른 특징을 가지고 있으므로 이를 구분하여 다루고자 한다. 필자는 특정 XML 엘리먼트가 여러 엘리먼트들의 계층적 구조 사이의 한 층을 담당하느냐, 아니면 PCDATA의 일부에 속하느냐에 따라 그 성격을 구분하는 것도 의미가 있다고 판단하며, 그 전자를 “구조 요소”(Structural Element), 후자를 “문중 요소”(In-Text Element)라고 명명한다.

    - 구조 요소(構造要素, Structural Element): 특정 상위 요소와 계층적 구조 관계를 맺는 요소

    - 문중 요소(文中要素, In-Text Element): 문자 데이터 중간에 삽입되어 특정 어휘 또는 어절의 성격을 알려 주는 역할을 수행하는 요소


22) 한국학중앙연구원에서 편찬찬『한국향토문화전자대전』 데이터베이스는 XML 전자문서 상에서, 인명, 지명, 기관명, 서명, 연호 등 5 가지의 고유명사를 정보 요소화 하고 이를 정보 서비스 시스템 상에서 재현할 때에는  각각 고유의 색상으로 표현되도록 하여 텍스트 가독성을 높이고 있다.


23) 우리나라의 고전 자료 정보화 사업에서 “문중 요소”(In-Text Element) 개념이 처음 도입된 것은 (주)서울시스템과 국사편찬위원회가 1995년에 착수한 한문원전조선왕조실록 데이터베이스 개발사업에서였다. 그 당시의  원전조선왕조실록 전자문서 형식은 XML의 전신이라고 할 수 있는 SGML(Standard Generalized Mark-up Language) 형식을 차용하여 만들어졌는데, 필수적인 형식 요건으로서 본문 중의 인명, 지명, 서명, 연호 등 4 가지 고유명사를 요소화 하도록 하였다.『조선왕조실록』의 전자 텍스트 제작하는 과정에서 그와 같은 “문중 요소”의 도입을 결정한 것은 중국의『이십오사』가 추구한 모델을 좇아 독자의 텍스트에 대한 이해도를 높이고자 한 것이 가장 주된 이유였다. 그러나 이 사업의 진행 과정에서 “문중 요소”의 처리는 키워드 색인의 자동 생성 및 유관 자료의 상호 연계, 텍스트의 통계적 분석 등에 크게 기여한다는 사실이 확인되면서, “문중 요소”를 활용한 다양한 서비스 기능이 개발되었다.


24)『한국문집총간색인』은『한국문집총간』 수록 문집 663종 중 조선 전기(임진왜란 이전)까지 간행된 212종의 문집 속에 포함된 용어들의 색인집이다. 민족문화추진회에서 1993년부터 2004년까지 10년에 걸쳐 편찬하여 8책의 자료집으로 간행하였다.


25) 김현, 「한국 고전적 전산화의 발전 방향」(민족문화추진회, 한국문집총간 완간 기념 국제학술회의, 2005. 11)


26) 고전 문헌에서 고유명사가 일차적인 정보화 요소로 인정받는 이유는 첫째, 대부분의 고전 문헌의 문맥에서 키워드의 역할을 담당하기 때문이며,  둘째, 일반명사가 “용어 사전” 등의 도움으로 자동색인화 등이 가능한 데 비해 고유명사는 그것을 식별하기 위한 장치가 텍스트 내에 마련되어 있지 않으면 기계적으로 식별해 내는 것이 거의 불가능하기 때문이며, 세째,  일반명사 용어는 키워드 지정 기준 설정이 항상 모호한 데 비해 고유명사는 그것을 비교적 명확하게 할 수 있기 때문이다. 앞의 두 가지는 중요성, 세 번째 것은 편이성이 이유가 된다고 할 수 있다. 정보화 작업은 성과의 중요도뿐 아니라 투자 대비 효과의 현실성도 고려해야 한다.


27) 필자는 “한문원전조선왕조실록 정보화”, “승정원일기 정보화”, “향토문화전자대전 편찬” 등의 대형 역사․․문화 자원 정보화 사업에 참여하면서, 고유명사 태깅을 수반한 전자문서 제작 업무를 관리하였으며, 이를 통해 고전 문헌의 고유명사 요소 처리의 가능성과 문제점을 확인하였다.


28) 한국학중앙연구원에서 2004년부터 시행하고 있는 “전근대인물종합정보데이터베이스” 편찬 사업에서는 데이터베이스 수록자료 상의 모든 인명 요소에 대해 고유한 인명 식별자를 속성 값으로 부여하도록하였다. 이 사업에서 적용한 인명 식별자의 형식은 “한글표기성명|한자표기성명|생년-몰년”이며 생몰년 미상인 인물에 대해서는 대표적인 역할 구분자를 사용한다.


29) 예를 들어, 인명의 경우, 다른 요소 값에 동일한 식별자가 부여되었을 때 그것이 동일인이 가진 여러 유형의 이름임을 알게 하여 통합 및 분리 색인을 만들 수 있게 한다. 지명의 경우, 우리나라와 중국에 동일한 한자 이름의 지명이 있을 때 속성 데이터에 의거, 양자를 분리하여 색인화 할 수 있게 한다.

    ※ 참고: 인명 유형 속성 범례

인명 유형

설명/예시

비고

성명(姓名)

성과 이름의 결합으로 이루어진 온전한 인명

 

성(姓)

성씨만으로 특정 인물을 지칭하는 경우. 본관 성씨는 인명으로 취급.

 

명(名)

성씨를 포함하지 않는 이름

 

자(字)

본명 대신 부르던 이름

 

호(號)

본명이나 자(字) 외의 특정 인물을 지목하는 다양한 호칭

남명(南冥), 간재(艮齋), 강호산인(江湖散人), 고면거사(高眠居士), 금강산인(金剛山人), 기화당(氣和堂), 소요당(逍遙堂), 송천노인(松泉老人), 요산주인(樂山主人), 월파거사(月坡居士)

 

봉작호(封爵號)

왕실, 종친에게 부여된 호칭 또는 특정 인물을 가리키는 관작의 칭호

안평대군(安平大君), 연잉군(延礽君), 여성위(礪城尉), 흥선대원군(興宣大院君), 순회세자(順懷世子), 능계수(綾溪守), 능주도정(綾洲都正), 강릉후(江陵侯), 화평군(化平君)

여성과 승려는 “여성인명”및 “승명”으로 취급

시호(諡號)

현신(賢臣)이나 유현(儒賢)들이 죽은 뒤에 그 생전의 공덕을 기리어 임금이 추증(追贈)하던 이름.

문간(文簡), 문강(文康), 문경(文敬), 문숙(文肅), 문순(文順), 문안(文安), 충열(忠烈), 충장(忠壯), 충정(忠貞), 충헌(忠獻)

 

왕명(王名)

왕의 묘호(廟號), 시호(諡號), 그밖의 왕의 지위를 알리는 정보를 포함한 인명

수로왕(首露王), 성덕대왕(聖德大王), 조분이사금(助賁尼師今), 충목왕(忠穆王), 고종(高宗), 영조(英祖)

왕의 본명은 “성명”으로 취급

승명(僧名)

법명(法名) 또는 승려 신분임을 알리는 정보를 포함한 인명

각성(覺性), 경허(鏡虛), 금암선사(錦岩禪師), 나옹(瀨翁), 서산청허조사(西山淸虛祖師), 수자화상(守慈和尙), 원광법사(圓光法師), 원광법사(圓光法師), 자하거사(紫霞居士), 허곡대사(虛谷大師), 묘청(妙淸)

 

여성인명

(女性人名)

특정 여성을 지목하는 다양한 형태의 호칭

계국대장공주(薊國大長公主), 기황후(奇皇后), 문정태후(文貞太后), 정희대비(貞熹大妃), 장희빈(張禧嬪), 조귀인(趙貴人), 조비(趙妃), 정화공주(貞和公主), 혜순옹주(惠順翁主), 계오부인(繼烏夫人), 사임당신씨(師任堂申氏), 천관녀(天官女)

 

외국인명

(外國人名)

외국인의 이름

나하추(納合出), 다루가치(達魯花赤), 토요토미(豊臣秀吉), 마건충(馬建忠), 살리타이(撤禮塔), 소정방(蘇定方), 용골대(龍骨大)

 


30) 민족문화추진회에서는 난해 원전으로 분류되는『오주연문장전산고(五洲衍文長箋散稿)』의 교감을 위해 이 문헌의 전문을 전자 텍스로 제작한 후, 전문 연구자들이 원문상에서 발견한 오류와 해석에 필요한 부가 정보를 원문의 주석문 형태로 부기하는 작업을 수행하였다.

    (http://oju.minchu.or.kr/oju/)


31)『五洲衍文長箋散稿』, 天地篇,  「十二重天辨證說」. 부가된 주석 및 교열 정보는 민족문화추진회에서 작성한 것임.



32) 여러개의 저장 단위[개체]로 구획된 대형 전자문서의 경우에는 각각의 단위를 한 문서로 간주한다.


33) 참조 대상 문서의 참조 부분에 대해 “부출”이라고 하는 요소명을 예시한 이유는 그 부분이 비록 독립적인 문서를 이루고 있지 않다고 하더라도 “정보 단위”로서의 역할을 하기 때문이다. 이는 마치 도서 목록에서 “서명”, “저자명”, “주제표목” 등 대표 항목 이외의 중요한 사항을 검색 접근점으로 부출하는 것과 유사하다.


34) 김현,  「전자문화지도 개발을 위한 정보 편찬 기술」, 『인문콘텐츠 제4호』, 2004. 12. 인문콘텐츠학회


35) 고전문헌 XML 편찬자가 레지스트리 상에 등록된 시공간 정보 요소의 고유한 이름을 확인하고, 필요시 새로운 요소를 등록할 수 있도록 하는 기능은 레지스트리 관리 시스템이 제공한다. 한국학중앙연구원에서는 향토문화전자대전 편찬 사업 수행 과정에서 시․공간 정보 레지스트리 관리 시스템을 개발하고, 이를 매개로 XML 문서의 정보 요소와 전자연표/전자지도 연계 기능을 구현하였다.